とある大学生の勉強メモ

バカでもいいじゃない,子供でもいいじゃない.

openSMILEの特徴量に関して

前置き

 openSMILEの具体的な中身に関して,日本語での記述がないので,記録に残しておく.まずopenSMILEは様々な音響特徴量を抽出するソフトである(https://www.audeering.com/opensmile/)

 近年のトレンドとして抽出した特徴量を機械学習する流れがあるかと思いますが,抽出→機械学習の一連の流れはこちら→https://amakazeryu.hatenablog.com/entry/2019/01/18/160146

 まあ最近は音声からリザルトまでを一気通貫するDeepLearningが主流なので,そこまで特徴量に拘る人も少なくなって,openSMILEも日陰に.......ただ無論機械学習以外にも使う方も当然いるので,一応ここにまとめておこうかと.だいぶ初心者向けな気がする.

環境

Windows10

openSMILEの構造

f:id:amakazeryu:20190622184724p:plain

とりあえず開いたzipファイルで,config,binが重要かと思います.binには実行関係のファイルが詰まっています.configは特徴量抽出に関しての法則が定まったファイルが下図のように揃っています.

f:id:amakazeryu:20190622184946p:plain

例えば,IS09_emotionはInterSpeechという音響系の国際学会2009年のEmotion Challengeという発表に即したconfigファイルとなっています.つまりこれを用いて抽出すれば,この論文(多分予稿,フルペーパーではない)の内容・理論に基づく音響特徴量が得られるという事です.ちなみに2010が感情推定で割と良い性能を出したいう事が知られている様です.ただし,感情推定はそも感情とは何かを科学的に導いていないので(2019年6月現在),よいエビデンスとも言い切れません.

 

音響特徴量

実際にIS09_emotionで抽出した音響特徴量は

f:id:amakazeryu:20190622185554p:plain

こんな感じです.基本的にIS09_emotionで取り出す音響特徴量は,

f:id:amakazeryu:20190622185726p:plain

であり,これらの特徴量の代表値となる,最大値,最小値,差分などをそれぞれ求めてくれます.加えてこれらの平滑化をした値を算出してくれます.

f:id:amakazeryu:20190622185757p:plain

openSMILEは全てのconfigファイルでこの形式を取ります.