音声における感情の認識では,一般に,一つの発話は同じ感情で発声されることを仮定することにより,発話を単位とした感情認識を行うことが多い。実際の発声では,必ずしも発話内で同じ感情が継続するわけではなく,発話の途中で感情が変化することも多い。そこで,発話における短区間ごとに感情を認識する音声感情認識の新しい手法を開発した。 提案する手法では,入力音声から文字に感情の情報を付与したラベル(以降,文字付き感情ラベル)の系列を推定する。音声認識にも用いられるCTC (Connectionist Temporal Classification) モデルの学習において,正解ラベルを文字だけの系列で構成するのではなく,文字付き感情ラベルの系列で構成することによって,音声認識と同時に短区間の感情認識を実現する。ここで,短区間とは文字に対応する発話の数フレームを指しており,音声の数フレーム単位に対応する文字を推定する枠組みを基に,感情の情報が付与された文字を推定することで,数フレーム単位に対応する感情の推定を可能にする。短区間の入力音声は「喜び」,「悲しみ」,「怒り」,「平静」の 4 感情カテゴリの一つに分類される。 英語の感情音声データベースであるIEMOCAPを用いて提案手法を評価した。音声認識として文字単位の正解率は81%であり,短区間の感情認識の正解率は53%となり,数フレーム単位の音声に対しても感情がある程度認識できることを示した。IEMOCAPのデータには,一発話内で感情が変化する音声データが含まれていないため,今後は,発話内で感情が変化する音声に対する評価を行うとともに,感情認識の性能を向上させることが今後の課題として挙げられる。
|