研究課題/領域番号 |
20K11898
|
研究機関 | 立命館大学 |
研究代表者 |
山下 洋一 立命館大学, 情報理工学部, 教授 (80174689)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 音声 / 感情認識 / パラ言語情報 / マルチモーダル |
研究実績の概要 |
音声は,書き言葉でも表現される言語情報だけではなく,感情や態度などのパラ言語情報や年齢や性別なども非言語情報も伝達する。本研究では,感情に焦点を当て,音声が伝える感情を認識する音声感情認識の技術開発について研究を行っている。音声感情認識は近年,ヒューマンコンピュータインタラクション(Human-Computer-Interaction; HCI) の分野で注目されている。応用例として,より人間らしいロボット開発,スマートスピーカや自動車などで利用されるエージェント開発,メンタルヘルス分析などが考えられる。音声が伝える感情は,音声の音響的特徴だけではなく,言語的な特徴によっても表現される。近年,音声認識の精度が大きく向上したことによって,音声の言語的特徴の利用が容易になっている。そこで,音響的な特徴と言語的な特徴を合わせて用いることによって感情認識の性能を向上させることを試みた。 データセットには,日本語感情音声データベースJTES (JapaneseTwitter-based Emotional Speech) を使用し,音声とテキストについて「喜び」「悲しみ」「怒り」「平静」の4 つの感情カテゴリの認識を行った。感情テキスト認識器の学習にはBERT,感情音声認識器の学習にはCNN やBLSTM,Attention を組み合わせたネットワークを用いた。さらに,それぞれの認識器から得られた特徴量を融合するearly-fusion,認識結果を融合するlate-fusion を適用することで双方の特徴を考慮した学習を試みた。late-fusion により,音響的特徴と言語的特徴を組み合わせることによって,音響的特徴のみを利用する場合と比べて約20%高い音声感情認識の性能を得た。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初,感情音声のデータを収録する予定であったが,感情音声を発声してもらう被験者の確保や音声の収録がコロナ禍において困難になったため,音声が持つ情報のうち,音響情報だけでなく言語情報をも利用した感情音声の認識手法について研究を行った。
|
今後の研究の推進方策 |
音響情報と言語情報を合わせて利用する音声感情認識の手法の開発をすすめる。認識モデルを学習するための感情ラベル付きのテキストデータの数が十分ではないことから,クラウドソーシングを利用することによって感情認識モデルの学習に用いるテキストデータを拡充し,性能改善を目指す。
|
次年度使用額が生じた理由 |
コロナ禍において,音声収録を行うことが難しく,そのための謝金などが未執行となった。今後,クラウドソーシングを用いたテキストデータに対する感情レベル付与の作業に充当する予定である。
|