2022 Fiscal Year Research-status Report
Development of emotion recognition system by transfer learning for various speeches
Project/Area Number |
22K12087
|
Research Institution | Yamagata University |
Principal Investigator |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 音声感情認識 / 深層学習 / 感情音声コーパス / 言語モデル適応 |
Outline of Annual Research Achievements |
本年度は音声感情認識に関し以下の2点について検討した. 1.言語的特徴および音響的特徴による感情認識の結果統合 2.OGVC(オンラインゲームチャットコーパス)を対象とした音声認識 1.について,従来我々は音声認識結果を深層学習モデルの一種であるBERTに入力し感情を認識する言語特徴を用いた方法と,音響特徴から時系列や統計量を用いて認識する2種類の出力を重み付き統合する方法を検討してきた.今回は2種類の特徴をディープニューラルネットワークで統合する方法を検討し,より高い性能を得ることができた.システムの概要としては,言語的特徴抽出のため,まず感情音声の音声認識を行い得られた誤りを含む音声認識結果を用いBERTで感情認識を行い4種類の感情に対する事後確率を得る.一方音響的特徴については,発話全体から各種特徴の統計量を得て認識する手法と,LSTMやGRUなどの時系列を表現できる深層学習モデルを用いて感情認識を行い,同様に事後確率を得る.その両者を統合してDNNに入力し最終的な認識結果を得る. 日本語感情コーパスJTESを対象に評価を行った結果,4感情の識別タスクにおいて従来法では80.25%であったが提案法では82.25%を得ることができた.2.についてOGVCを対象に音声認識の検討を行い言語モデル適応が有効であることを示した.音響モデルにはJTESで適応したモデルを使用し,言語モデルはツイート文に適応したモデル,OGVCに適応したモデル,更にはツイート適応モデルを更にOGVCで適応したモデルの3種類を比較した.この結果いずれの方法も性能向上が得られることが分かったが,特にツイート適応が有効であることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的はオープンタスクにおいて,言語的特徴と音響的特徴の2種類を併用し,音声感情認識の性能向上を図ることである.よって最終的には日本語感情コーパスJTESを学習データとして用い,オンラインゲームチャットコーパスOGVCを評価対象として用いることを目指す.今年度はこの目標達成のため,2種類の検討,すなわち1.言語特徴および音響的特徴による感情認識の結果統合,および2.OGVC(オンラインゲームチャットコーパス)を対象とした音声認識を行った.前者により2種類の特徴の融合について有効な方法を確立した.またオープンタスクであるOGVCでの感情認識の第一歩としてOGVCの音声認識性能の向上を目指した.これはOGVCにおける言語的特徴利用の基礎となる.特に本年度は言語モデル適応の検討を行い,その有効性を示すことができた.以上より2種類の特徴の統合法の確立および,OGVCの音声認識の目途がついたため,おおむね順調に進展と判断した.
|
Strategy for Future Research Activity |
オープンタスクでの感情認識性能向上が最終目的であるが,これまで日本語感情コーパスJTESで学習し,そのJTESで評価する手法についてはほぼ確立した.JTESの人間による4感情認識の認識率は75.5%と報告されており,それを上回る認識性能を得ている.従って今後はオープンタスクであるオンラインゲームチャットコーパスOGVCでの性能向上に重点を置く.そのためにはまずOGVCにおける音声認識性能の向上を目指す必要がある.前年度では言語モデル適応について評価を行ったが,今後はOGVCにおける音響モデル適応の検討を行う必要がある.また言語特徴からの感情認識についてBERTを用いているが,学習テキストの量が2000文以下と不足している.これは感情ラベルが付与されたテキストが少ないことに起因しているが,データ拡張手法により学習テキストを増やしBERTによる感情認識性能の向上を目指す.また同時に言語的特徴と音響的特徴の融合手法がOGVCでも有効か検討を行う.
|