Development of emotion recognition system by transfer learning for various speeches

Research Project

Project/Area Number	22K12087
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Yamagata University
Principal Investigator	小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000) Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	音声感情認識 / 深層学習 / 言語特徴 / 音響特徴 / 自発対話音声 / 感情音声コーパス / 言語モデル適応 / 音声認識 / 転移学習
Outline of Research at the Start	人間対人間の対話同様，人間対機械の対話においても，言語情報だけではなく感情などの非言語情報が大きな役割を果たす．本研究では音声による感情の推定に焦点を当てる．申請者はこれまでツイッターの内容読み上げを対象とした感情音声コーパスを用いて検討を行い，4感情クラスの認識において78.5%の結果を得た．しかし異なる感情データでは認識性能の低下が懸念される．本研究では転移学習技術を応用し，特定のタスクだけでなく多様な感情音声に対して高精度な認識を実現する技術を確立することを目的とする．この目的が達成できれば応用範囲が飛躍的に拡大し，様々な分野への波及が期待できる．
Outline of Annual Research Achievements	本研究では音響特徴と言語特徴を併用した，高精度で汎化性の高い音声感情認識の実現を目指している．構築するシステムは音響特徴による感情認識部，言語特徴による感情認識部，両者の出力の併合部の３つの要素から構成されている．本年度は特に以下の検討を行った． [言語特徴による感情認識部の性能向上] これまでのシステムでは音響特徴による感情認識に比べ，言語特徴による感情認識の性能が低かった．前者は4感情認識で77.25%に対し後者は51.5%にとどまっていた．言語特徴による方法では深層学習モデルの一種であるBERTを用いているが，これまで書き言葉で事前学習されたモデルを使用していた．一方認識対象となる音声は話し言葉でありミスマッチが生じていることが予想された．そこで話し言葉に近いSNSのデータで事前学習されたBERT(SNS-BERT)を用いることにより，言語特徴による認識性能が76.75%と大幅に向上した． [オープンタスクによる評価] 日本語における感情音声コーパスの種類が少ないため，従来の研究ではクローズドタスクで評価されることが多かった．本研究では汎化性の高いシステムをめざしているため，オープンタスクでの評価も行った．利用したのはオンラインゲームチャットコーパスの自発対話音声で最新の大規模モデルを使用しても認識率が50%以下と極めて困難なタスクである．これに対し上記のSNS-BERTを利用することにより言語特徴による認識性能が大幅に向上することが示された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究の目的はオープンタスクにおいて，言語的特徴と音響的特徴の２種類を併用し，音声感情認識の性能向上を図ることである．よって最終的には日本語感情コーパスJTESを学習データとして用い，オンラインゲームチャットコーパスOGVCを評価対象として用いることを目指す．これまでの検討で問題となっていたのは言語特徴を用いた感情認識の性能の低さである．これに対し話し言葉に近いSNSによる事前学習モデルを使用することにより，音響特徴による認識に近い性能が得られることを示した．またその手法はオープンタスクでも有効であることが示された．よって言語特徴による感情認識の目途がついたため，おおむね順調に進展していると判断した．
Strategy for Future Research Activity	最終年度を迎えるため，今後はオープンタスクでの認識性能の向上に注力する．これまでの研究で，日本語感情コーパスJTESで学習し，そのJTESで評価するクローズドタスクについては十分高い性能が得られることが示された．オープンタスクとしてはオンラインゲームチャットコーパス(OGVC)を使用する．このデータは実際のゲームチャットを利用しているため，SNS上のテキストの読み上げであるJTESに比較して，極めてくだけた発話となっており性質が異なる．このオープンタスクでも十分な性能が得られれば，本研究で目指している認識手法の汎化性能の向上が確認できたことになる． OGVCは演技音声と自発音声の２種類からなる．後者は前者に比べ感情表出の度合いが低く極めて困難なタスクであり，従来あまり検討されていない．今後は演技音声と自発音声の両者で評価し，JTESに比較して何が困難であるか明らかにする．性能が十分に得られない場合は，OGVCにおける音声認識の性能向上，コーパスの収録環境の差異の正規化，BERTのファインチューニングにおける学習データの増加などの手法を用いて性能の向上を目指す．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(7 results)

All 2024 2023 2022 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (4 results) Remarks (1 results)

[Journal Article] Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data2024
- Author(s)
  T.kosaka, K.Saeki, Y.Aizawa, M.Kato, T.Nose
- Journal Title
  
  IEICE Transactions on Information and Systems
  
  Volume: E107.D Issue: 3 Pages: 363-373
- DOI
  10.1587/transinf.2023HCP0010
- ISSN
  0916-8532, 1745-1361
- Year and Date
  2024-03-01
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Speech Emotion Recognition by Late Fusion of Linguistic and Acoustic Features using Deep Learning Models2023
- Author(s)
  K.Sato, K.Kishi, T.Kosaka
- Journal Title
  
  Proc. of APSIPA-ASC2023
  
  Volume: - Pages: 1013-1018
- DOI
  10.1109/apsipaasc58517.2023.10317325
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Presentation] 話し言葉を考慮した言語特徴による音声感情認識2023
- Author(s)
  岸恵太，佐藤清秀，小坂哲夫
- Organizer
  音響学会秋季研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 話し言葉を考慮した音響および言語特徴併用による音声感情認識2023
- Author(s)
  岸恵太，佐藤清秀，小坂哲夫
- Organizer
  第258回自然言語処理・第149回音声言語情報処理合同研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 深層学習モデルを用いた言語特徴と音響特徴の後期融合による音声感情認識2023
- Author(s)
  佐藤清秀，岸恵太，小坂哲夫
- Organizer
  日本音響学会春季研究発表会
- Related Report
  2022 Research-status Report
[Presentation] 言語特徴と音響特徴の後期融合による音声感情認識の検討2022
- Author(s)
  佐藤清秀，岸恵太，小坂哲夫
- Organizer
  第５回東北地区音響学研究会
- Related Report
  2022 Research-status Report
[Remarks] 小坂研究室
- URL
  https://speech-lab.yz.yamagata-u.ac.jp/
- Related Report
  2023 Research-status Report 2022 Research-status Report

Development of emotion recognition system by transfer learning for various speeches

Principal Investigator

小坂 哲夫 山形大学, 大学院理工学研究科, 教授 (50359569)

¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data2024

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] Speech Emotion Recognition by Late Fusion of Linguistic and Acoustic Features using Deep Learning Models2023

Author(s)

Journal Title

DOI

Related Report

[Presentation] 話し言葉を考慮した言語特徴による音声感情認識2023

Author(s)

Organizer

Related Report

[Presentation] 話し言葉を考慮した音響および言語特徴併用による音声感情認識2023

Author(s)

Organizer

Related Report

[Presentation] 深層学習モデルを用いた言語特徴と音響特徴の後期融合による音声感情認識2023

Author(s)

Organizer

Related Report

[Presentation] 言語特徴と音響特徴の後期融合による音声感情認識の検討2022

Author(s)

Organizer

Related Report

[Remarks] 小坂研究室

URL

Related Report

小坂哲夫山形大学, 大学院理工学研究科, 教授 (50359569)