2019 Fiscal Year Research-status Report
Development of multi-lingual speech-based emotion recognition system by using heterogeneous emotional speech corpus
Project/Area Number |
19K12059
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 |
Outline of Annual Research Achievements |
本研究は、人間と機械がより共感できるコミュニケーションを実現するために必要な音声に基づく感情認識技術の研究開発を目的とする。音声による感情認識技術の実用化を阻害する問題としては、伝達対象である感情が人間の表現と受容において主観的に行われる点や文化・社会・言語などの影響が高いために感情分類カテゴリーが異種的に定義される点などが考えられる。一方、言語自体とは異なり、感情は言語間でも共通できる知識を持つため、感情の普遍的な汎用特徴空間を異種言語から構築する手法を解決策として本研究から提案する。 研究初年度として、複数の公開感情音声コーパスを整備し、共通的に使用することを進めた。日本語はJTES(Japanese Twitter-based Emotional Speech)を、英語は音声感情認識の学術分野で共通のベンチマークテストとして広く用いられるIEMOCAP(Interactive Emotional Dyadic Motion Capture )を用いた。まず、個別のコーパスで定義された分類から共通するカテゴリーを設定し、これらを混合する特徴空間、特徴正規化(feature normalization)とマルチタスク学習(Multi-task learning; MTL)に基づくネットワークの最適化を初年度の研究課題として進めた。 異種性の高い日本語と英語の感情音声データを用い、音声特徴のみに基づく感情認識の高性能深層ニューラルネットワークを構築できた。多言語による汎化性向上の研究として混合特徴空間とネットワークの最適化の実証実験を進めた。その研究成果として、論文投稿時点では世界最高性能の音声感情認識の正解率が得られ、google scholarのAcoustics & Soundのトップ1位の国際会議であるICASSP2019で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究初年度として、異種言語に対して共通の特徴空間を構築する研究計画において、異種性の非常に高い日本語と英語の二つの言語を用い、特徴正規化(feature normalization)とマルチタスク学習(Multi-task learning; MTL)に基づくシステムを構築できた。特に、言語依存性が高いため、言語に対して汎用的な多言語システムは言語に従属する単一言語システムの性能より劣化すると言われるが、本年度の研究から言語、性別と感情の3つのタスクを同時に最適化するマルチタスク学習により、日本語と英語の両方の性能において単一システムの性能を超える多言語システムの性能が得られた。その成果を国際会議ICASSP2019で発表することができたため、本研究課題の進捗状況はおおむね順調に進展していると評価した。
|
Strategy for Future Research Activity |
今後の研究では、異種言語の感情音声コーパスを統合した多言語システムの構築を以下の三つの項目に基づいて推進する。 1)言語(コーパス)の種類を増加して、汎用性を高める手法を研究する。研究初年度の日本語(JTES; Japanese Twitter-based Emotional Speech)、英語(IEMOCAP; Interactive Emotional Dyadic Motion Capture )の二つの言語に追加して、日本語(OGVC; Online gaming voice chat corpus with emotional label)、ドイツ語(FAU-Aibo)やフランス語(RECOLA; Remote Collaborative and Affective Interactions)などのコーパスを用いて、多言語システムの汎用性を高める手法を研究する。 2)言語(コーパス)間のドメインシフトによる認識精度の劣化を究明し、感情認識タスクに共通の特徴空間を構築する手法を研究する。言語依存性のない特徴空間を多言語間で共通する特徴から構築する。その際、言語非依存による性能劣化を防ぐことを工夫する。 3)感情認識における音声特徴の静的と動的フレームワークの統合する手法を研究する。一つの発声を処理単位として扱う静的特徴フレームワーク(feed-forward neural network)と短時間の分析フレームに基づく動的特徴フレームワーク(RNN; Recurrent Neural Network) を統合する手法を研究する。その際、まずは注意機構(Attention mechanism)に基づくSequence-to-sequence技術に適用し、発声全体に基づくパラ言語特徴とフレームに基づくスペクトラム特徴を統合する手法を開発する。
|
Causes of Carryover |
当初の初年度計画では、複数言語のコーパスを統合するため、音声データの整備を考えたが、基礎研究として、日本語と英語の二つの言語を先行することが急務であった。また、その二言語に基づく研究の進捗を非常に進めることができ、国際会議での発表を優先するため、ドイツ語、フランス語などの複数言語の音声データの整備を次年度に行うことが研究進行上で望ましいことだと判断された。従いまして、次年度使用額(B-A)を翌年度分として請求した助成金と合わせて、膨大になる多言語音声感情データの整備に有効的に使用する計画である。
|