2022 年度実績報告書

音声における感情を表現する特徴量の抽出に基づいた感情音声

研究課題

研究課題/領域番号	20K11898
研究機関	立命館大学
研究代表者	山下洋一立命館大学, 情報理工学部, 教授 (80174689)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	音声感情認識 / 短区間 / CTC / 文字付き感情ラベル
研究実績の概要	音声における感情の認識では，一般に，一つの発話は同じ感情で発声されることを仮定することにより，発話を単位とした感情認識を行うことが多い。実際の発声では，必ずしも発話内で同じ感情が継続するわけではなく，発話の途中で感情が変化することも多い。そこで，発話における短区間ごとに感情を認識する音声感情認識の新しい手法を開発した。提案する手法では，入力音声から文字に感情の情報を付与したラベル（以降，文字付き感情ラベル）の系列を推定する。音声認識にも用いられるCTC (Connectionist Temporal Classification) モデルの学習において，正解ラベルを文字だけの系列で構成するのではなく，文字付き感情ラベルの系列で構成することによって，音声認識と同時に短区間の感情認識を実現する。ここで，短区間とは文字に対応する発話の数フレームを指しており，音声の数フレーム単位に対応する文字を推定する枠組みを基に，感情の情報が付与された文字を推定することで，数フレーム単位に対応する感情の推定を可能にする。短区間の入力音声は「喜び」，「悲しみ」，「怒り」，「平静」の 4 感情カテゴリの一つに分類される。英語の感情音声データベースであるIEMOCAPを用いて提案手法を評価した。音声認識として文字単位の正解率は81%であり，短区間の感情認識の正解率は53%となり，数フレーム単位の音声に対しても感情がある程度認識できることを示した。IEMOCAPのデータには，一発話内で感情が変化する音声データが含まれていないため，今後は，発話内で感情が変化する音声に対する評価を行うとともに，感情認識の性能を向上させることが今後の課題として挙げられる。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 音声認識とのマルチタスク学習を用いたCTC モデルに基づく短区間音声感情認識2022
- 著者名/発表者名
  永瀬亮太郎, 福森隆寛, 山下洋一
- 学会等名
  日本音響学会2022年秋季研究発表会