研究実績の概要 |
深層学習の利用により,音声を対象とした感情推定の研究が進展しているが,言語情報と非言語情報の融合についての検討はまだ不十分であり,本研究では深層学習を利用した両者の融合を目指した. 言語情報を利用するためには感情音声の認識が必要となるが,音響的にも言語的にも変動が大きく認識は困難である.この問題に対し我々は音響モデルおよび言語モデルの感情音声タスクへの適応を試みた.この際問題となるのが言語モデル適応データの不足である.感情表現を含んだテキストが大量に必要となるが,一般的にそのようなデータは整備されていない.この問題に対しツイートデータを利用する方法を検討し.大量データ(単語数2,586万)を用い言語モデル適応を行い,高性能な認識を実現した.更に得られた発話内容テキストから感情推定する方法を試みた.推定にはBERT(Bidirectional Encoder Representations from Transformers)と呼ばれる深層学習モデルを使用した.音声認識から得られた発話テキストは音声認識誤りを含むが,このような誤りを含むテキストへのBERTの利用はこれまで十分には検討されてこなかった.しかし今回の検討の結果,感情認識において十分有用であることが分かった. 次に音声による非言語情報を利用した感情推定の精度向上について検討した.この点について発話全体の音響的特徴から抽出した統計量と音声の時系列特徴を融合して認識する方法の検討を行い,精度向上が得られることが分かった. 最後に言語的特徴と音響的特徴の後期融合を行い,感情推定の評価を行った.認識実験の結果,言語的特徴と音響的特徴は感情の異なる特徴を捉えており,融合により相補的効果が得られることが分かった.最終的には日本語感情コーパスJTESにおける4感情の認識で82.75%と高い認識性能を得た.
|