研究課題/領域番号 |
19K12014
|
研究機関 | 山形大学 |
研究代表者 |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 感情認識 / 音声認識 / ディープラーニング / 感情音声 / 音響モデル / 言語モデル |
研究実績の概要 |
深層学習の利用により,音声を対象とした感情推定の研究が進展している.特に音声に含まれる非言語情報を利用した感情推定の研究は大きく進展している.一方言語情報と非言語情報の融合についての検討はまだ不十分であり,本研究では深層学習を利用した両者の融合を目指す. 言語情報を利用するためには,まず感情音声認識の精度向上が必要となる.しかし平静音声の認識と異なり音響的にも言語的にも変動が多く,認識は困難なものとなる.この問題に対し我々は音響モデルおよび言語モデルの感情音声タスクへの適応により性能向上が可能なことを前年度確認している.本年度は引き続き言語モデルのタスク適応の性能向上の検討を行った.この際問題となるのが適応データの不足である.感情表現を含んだテキストが大量に必要となるが,一般的にそのようなデータは整備されていない.この問題に対しTwitterのツイートデータを利用する方法を検討した.ベースとなる言語モデルに基づいたパープレキシティで選別した大量データ(単語数2,586万)を用い言語モデル適応を行い,従来法と比較し性能向上を得た. 次に音声による非言語情報を利用した感情推定の精度向上について検討した.この点について発話全体の音響的特徴から抽出した統計量と音声の時系列特徴を融合して認識する方法について前年度から継続して検討を行った.ディープニューラルネットワーク学習方法について種々検討を行い若干の性能向上を得た. 以上,本年度の主な成果は言語モデル適応の改良による感情音声認識の性能向上である.これは言語情報と非言語情報を融合して感情認識を行う目的にとって,重要な結果であり,今後の研究の進展に意義深い結果が得られたと考えられる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は特に重要な感情音声認識において大きな進展があった.これまで言語情報と非言語情報の融合を融合した感情認識の検討は様々行われてきたが,最大の問題点は感情音声認識の性能の低さであった.この性能が低く誤認識が多いと,正しい言語情報が利用できず,これが融合法のネックとなっていた.このため従来は音声認識が100%正しく認識できたと仮定した場合の研究が多く行われてきた.しかし現実には100%認識できるわけではなくこの点が問題となっていた.今回,感情音声認識の性能向上が得られたことにより,言語情報と非言語情報の融合に関し仮定の実験ではなく実際の音声認識結果を使った融合の検討の目途が得られた.一方音声認識結果からの感情推定については着手できていないので,この点について今後注力する必要がある.
|
今後の研究の推進方策 |
次年度は3年目であり,研究のまとめに当たる.次年度はまず音声認識結果をもとに感情推定の検討を行う.認識を行うためのモデルとしてDeep Neural Network(DNN)およびLSTM(Long short-term memory)の利用を考える.いずれも深層学習を利用したモデルとして様々な分野で利用されているが,特に後者は時系列特徴の時間的推移をモデル化するという点で,言語情報を扱うのに適したモデルとも考えられる. 以上の結果が得られれば言語情報と非言語情報の結果を統合し,最終的な感情認識率を算出する.これまでの結果から統合としては後期融合を利用する.後期融合ではそれぞれの認識結果のスコアを重みを掛け融合する.両者の感情認識に対する寄与度を考慮して重みの調整を行う.またこの際音声認識が100%だったと仮定した場合の実験と比較し,音声認識誤りの影響がどの程度か明らかにする.
|