openSMILEの特徴量に関して - とある大学生の勉強メモ

前置き

　openSMILEの具体的な中身に関して，日本語での記述がないので，記録に残しておく．まずopenSMILEは様々な音響特徴量を抽出するソフトである(https://www.audeering.com/opensmile/)

　近年のトレンドとして抽出した特徴量を機械学習する流れがあるかと思いますが，抽出→機械学習の一連の流れはこちら→https://amakazeryu.hatenablog.com/entry/2019/01/18/160146

　まあ最近は音声からリザルトまでを一気通貫するDeepLearningが主流なので，そこまで特徴量に拘る人も少なくなって，openSMILEも日陰に......．ただ無論機械学習以外にも使う方も当然いるので，一応ここにまとめておこうかと．だいぶ初心者向けな気がする．

環境

Windows10

openSMILEの構造

f:id:amakazeryu:20190622184724p:plain

とりあえず開いたzipファイルで，config，binが重要かと思います．binには実行関係のファイルが詰まっています．configは特徴量抽出に関しての法則が定まったファイルが下図のように揃っています．

f:id:amakazeryu:20190622184946p:plain

例えば，IS09_emotionはInterSpeechという音響系の国際学会2009年のEmotion Challengeという発表に即したconfigファイルとなっています．つまりこれを用いて抽出すれば，この論文(多分予稿，フルペーパーではない)の内容・理論に基づく音響特徴量が得られるという事です．ちなみに2010が感情推定で割と良い性能を出したいう事が知られている様です．ただし，感情推定はそも感情とは何かを科学的に導いていないので(2019年6月現在)，よいエビデンスとも言い切れません．