2020 Fiscal Year Research-status Report
Development of multi-lingual speech-based emotion recognition system by using heterogeneous emotional speech corpus
Project/Area Number |
19K12059
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 |
Outline of Annual Research Achievements |
本研究の目的は、人間と機械間のより情緒的なコミュニケーションを音声に基づいて実現することである。音声に基づく感情認識技術の実用化を阻害する問題としては、人間による感情の表現と受容が極めて主観的である問題や言語・社会・文化・世代などの環境的な要因による影響に変動しやすい問題が上げられる。これらの問題解決のため、複数の異種言語から感情の普遍的な汎用特徴空間を構築する手法を本研究から提案し、研究開発する。 研究初年度では、複数の公開感情音声コーパスを整備し、共通的に使用することを進めた。日本語はJTESを、英語はIEMOCAPを用い、二つの異種言語間に共通する特徴空間を、特徴正規化とマルチタスク学習に基づいてネットワークの最適化を行った。引き続き、研究二年目の今年度では、新たに英語の感情音声データベース(MSP-IMPROV)を加えて、三つの多言語のクロス言語間の認識タスクを設定し、言語間における共通的な感情特徴空間を構築することを進めた。 三つの異種感情音声データを対象にして、近年注目の高いtriplet networkを用い、感情における共通・汎用空間を探索した。研究の結果、二つの英語音声データから構築されたモデルに対し、日本語の感情音声を入力した際、言語間の相違により45.05%の低い正解率であった性能を、提案のtriplet networkを用いる手法では、言語間の学習データの併用なしでも80.66%まで35.61%の性能向上を果たすことが出来た。この結果から、異種言語間でも共通する汎化性の高い特徴空間が存在することが確認できた。この研究成果は、google scholarのAcoustics & Sound分野におけるトップクラスの国際会議であるIEEE Spoken Language Technology Workshop(SLT2021)で採択され、発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究二年度として、異種言語における共通の特徴空間(表現学習)を構築する研究計画において、異種性の高い日本語と英語―二つの英語データベース(IEMOCAP, MSP-IMPROV)と一つの日本語データベース(JTES)―を用い、Deep metric learningのため開発されたtriplet networkのフレームワークを異種言語の感情認識タスクへ拡張っしたシステムを構築し、実証実験を行った。この研究進捗は、研究初年度の異種言語における、特徴正規化(feature normalization)とマルチタスク学習(Multi-task learning; MTL)に基づくシステム構築に続き、三つの多言語のクロス言語間の認識タスクを設定し、異種言語間でも共通的な音声感情の特徴空間を構築できることを確認した今年度の進捗から当初の研究計画より順調に進んでいる。特に、英語音声データのみで構築されたシステムへ日本語の音声を入力する言語非依存(独立)の実証実験において、提案のtriplet networkにより45.05%から80.66%への35.61%の性能向上を得られたことは大きな研究進捗である。その研究成果を国際会議SLT2021で発表することができたため、本研究課題の進捗状況はおおむね順調に進展していると評価した。
|
Strategy for Future Research Activity |
今後の研究では、異種言語の感情音声コーパスを統合した多言語システムの構築を以下の優先順位に基づいて推進する。 1)言語(コーパス)間のドメインシフトによる認識精度の劣化を究明する。タスクである感情とドメイン情報である言語・性別などをDANN(Domain Adversarial Neural Network)とMTL(Multi-task learning)などの手法により分離または統合し、感情とドメイン情報の各々の個別特徴空間を構築する。その結果から、未知のドメインへ頑健な汎用特徴空間(表現)を構築するためのデータ拡張(data augmentation)を最適に適用する手法の研究・開発を最優先的に計画する。 2)言語(コーパス)の種類を増加して、汎用性を高める手法を研究する。現在の日本語(JTES)、英語(IEMOCAP, MSP-IMPROV)の三つのコーパスに加えて、日本語(OGVC)、ドイツ語(FAU-Aibo)やフランス語(RECOLA)などのコーパスを用いて、多言語システムでの実証実験を行う。 3)感情認識における音声特徴の静的と動的フレームワークの統合する手法を研究する。一つの発声を処理単位として扱う静的特徴フレームワークと短時間の分析フレームに基づく動的特徴フレームワークを統合する手法を研究する。この統合手法では、システムの小規模化・高速化を目指す。
|
Causes of Carryover |
参加予定とした国内・国際会議がコロナ過によりオンラインとなったため、旅費の経費が使用できない状況であった。今後の計画として、次年度使用額(B-A)を翌年度分として請求した助成金と合わせて、膨大になる多言語音声感情データの整備に有効的に使用する計画である。また、研究最終年度として、雑誌や国内外の学術会議への発表を拡大して行う予定である。
|