Development of emotion recognition system by transfer learning for various speeches
Project/Area Number |
22K12087
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Yamagata University |
Principal Investigator |
小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 音声感情認識 / 深層学習 / 感情音声コーパス / 言語モデル適応 / 音声認識 / 転移学習 |
Outline of Research at the Start |
人間対人間の対話同様,人間対機械の対話においても,言語情報だけではなく感情などの非言語情報が大きな役割を果たす.本研究では音声による感情の推定に焦点を当てる.申請者はこれまでツイッターの内容読み上げを対象とした感情音声コーパスを用いて検討を行い,4感情クラスの認識において78.5%の結果を得た.しかし異なる感情データでは認識性能の低下が懸念される. 本研究では転移学習技術を応用し,特定のタスクだけでなく多様な感情音声に対して高精度な認識を実現する技術を確立することを目的とする.この目的が達成できれば応用範囲が飛躍的に拡大し,様々な分野への波及が期待できる.
|
Outline of Annual Research Achievements |
本年度は音声感情認識に関し以下の2点について検討した. 1.言語的特徴および音響的特徴による感情認識の結果統合 2.OGVC(オンラインゲームチャットコーパス)を対象とした音声認識 1.について,従来我々は音声認識結果を深層学習モデルの一種であるBERTに入力し感情を認識する言語特徴を用いた方法と,音響特徴から時系列や統計量を用いて認識する2種類の出力を重み付き統合する方法を検討してきた.今回は2種類の特徴をディープニューラルネットワークで統合する方法を検討し,より高い性能を得ることができた.システムの概要としては,言語的特徴抽出のため,まず感情音声の音声認識を行い得られた誤りを含む音声認識結果を用いBERTで感情認識を行い4種類の感情に対する事後確率を得る.一方音響的特徴については,発話全体から各種特徴の統計量を得て認識する手法と,LSTMやGRUなどの時系列を表現できる深層学習モデルを用いて感情認識を行い,同様に事後確率を得る.その両者を統合してDNNに入力し最終的な認識結果を得る. 日本語感情コーパスJTESを対象に評価を行った結果,4感情の識別タスクにおいて従来法では80.25%であったが提案法では82.25%を得ることができた.2.についてOGVCを対象に音声認識の検討を行い言語モデル適応が有効であることを示した.音響モデルにはJTESで適応したモデルを使用し,言語モデルはツイート文に適応したモデル,OGVCに適応したモデル,更にはツイート適応モデルを更にOGVCで適応したモデルの3種類を比較した.この結果いずれの方法も性能向上が得られることが分かったが,特にツイート適応が有効であることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的はオープンタスクにおいて,言語的特徴と音響的特徴の2種類を併用し,音声感情認識の性能向上を図ることである.よって最終的には日本語感情コーパスJTESを学習データとして用い,オンラインゲームチャットコーパスOGVCを評価対象として用いることを目指す.今年度はこの目標達成のため,2種類の検討,すなわち1.言語特徴および音響的特徴による感情認識の結果統合,および2.OGVC(オンラインゲームチャットコーパス)を対象とした音声認識を行った.前者により2種類の特徴の融合について有効な方法を確立した.またオープンタスクであるOGVCでの感情認識の第一歩としてOGVCの音声認識性能の向上を目指した.これはOGVCにおける言語的特徴利用の基礎となる.特に本年度は言語モデル適応の検討を行い,その有効性を示すことができた.以上より2種類の特徴の統合法の確立および,OGVCの音声認識の目途がついたため,おおむね順調に進展と判断した.
|
Strategy for Future Research Activity |
オープンタスクでの感情認識性能向上が最終目的であるが,これまで日本語感情コーパスJTESで学習し,そのJTESで評価する手法についてはほぼ確立した.JTESの人間による4感情認識の認識率は75.5%と報告されており,それを上回る認識性能を得ている.従って今後はオープンタスクであるオンラインゲームチャットコーパスOGVCでの性能向上に重点を置く.そのためにはまずOGVCにおける音声認識性能の向上を目指す必要がある.前年度では言語モデル適応について評価を行ったが,今後はOGVCにおける音響モデル適応の検討を行う必要がある.また言語特徴からの感情認識についてBERTを用いているが,学習テキストの量が2000文以下と不足している.これは感情ラベルが付与されたテキストが少ないことに起因しているが,データ拡張手法により学習テキストを増やしBERTによる感情認識性能の向上を目指す.また同時に言語的特徴と音響的特徴の融合手法がOGVCでも有効か検討を行う.
|
Report
(1 results)
Research Products
(3 results)