2020 年度実施状況報告書

音声における感情を表現する特徴量の抽出に基づいた感情音声

研究課題

研究課題/領域番号	20K11898
研究機関	立命館大学
研究代表者	山下洋一立命館大学, 情報理工学部, 教授 (80174689)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	音声 / 感情認識 / パラ言語情報 / マルチモーダル
研究実績の概要	音声は，書き言葉でも表現される言語情報だけではなく，感情や態度などのパラ言語情報や年齢や性別なども非言語情報も伝達する。本研究では，感情に焦点を当て，音声が伝える感情を認識する音声感情認識の技術開発について研究を行っている。音声感情認識は近年，ヒューマンコンピュータインタラクション(Human-Computer-Interaction; HCI) の分野で注目されている。応用例として，より人間らしいロボット開発，スマートスピーカや自動車などで利用されるエージェント開発，メンタルヘルス分析などが考えられる。音声が伝える感情は，音声の音響的特徴だけではなく，言語的な特徴によっても表現される。近年，音声認識の精度が大きく向上したことによって，音声の言語的特徴の利用が容易になっている。そこで，音響的な特徴と言語的な特徴を合わせて用いることによって感情認識の性能を向上させることを試みた。データセットには，日本語感情音声データベースJTES (JapaneseTwitter-based Emotional Speech) を使用し，音声とテキストについて「喜び」「悲しみ」「怒り」「平静」の4 つの感情カテゴリの認識を行った。感情テキスト認識器の学習にはBERT，感情音声認識器の学習にはCNN やBLSTM，Attention を組み合わせたネットワークを用いた。さらに，それぞれの認識器から得られた特徴量を融合するearly-fusion，認識結果を融合するlate-fusion を適用することで双方の特徴を考慮した学習を試みた。late-fusion により，音響的特徴と言語的特徴を組み合わせることによって，音響的特徴のみを利用する場合と比べて約20%高い音声感情認識の性能を得た。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由当初，感情音声のデータを収録する予定であったが，感情音声を発声してもらう被験者の確保や音声の収録がコロナ禍において困難になったため，音声が持つ情報のうち，音響情報だけでなく言語情報をも利用した感情音声の認識手法について研究を行った。
今後の研究の推進方策	音響情報と言語情報を合わせて利用する音声感情認識の手法の開発をすすめる。認識モデルを学習するための感情ラベル付きのテキストデータの数が十分ではないことから，クラウドソーシングを利用することによって感情認識モデルの学習に用いるテキストデータを拡充し，性能改善を目指す。
次年度使用額が生じた理由	コロナ禍において，音声収録を行うことが難しく，そのための謝金などが未執行となった。今後，クラウドソーシングを用いたテキストデータに対する感情レベル付与の作業に充当する予定である。

研究成果
(3件)

すべて 2021 2020

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

[雑誌論文] 音声を用いた感情認識のための学習話者の選択2020
- 著者名/発表者名
  秋山大知, 石川智希井本桂右, 新妻雅弘, 山西良典, 山下洋一
- 雑誌名
  
  日本音響学会誌
  
  巻: 76 ページ: 554-561
- 査読あり
[学会発表] テキスト情報を利用した深層学習に基づく音声感情認識2021
- 著者名/発表者名
  永瀬亮太郎, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2021年春季研究発表会講演論文集
[学会発表] ニュートラル音声の特性を考慮したソフトラベルによる感情分類モデル学習2020
- 著者名/発表者名
  大澤まゆ子, 井本桂右, 山西良典, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2020年秋季研究発表会講演論文集