研究課題/領域番号 |
19K12059
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2019年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 / 感情認識 |
研究開始時の研究の概要 |
本研究では、音声信号から言語的な意味と意図・意思・感情なとのパラ言語・非言語情報を統合できる音声に基づく感情認識技術の学術的な基盤研究を目的とする 人間は音声による感情を主観的に表現・収容する。また、現在までに開発された様々な言語の感情音声コーパスが異なる分類のカテゴリーを持っており、大規模な学習データを必要とする認識・分類タスクにおいては致命的な弱点となってきた。その一方、感情は言語の壁がないユニバーサル言語ともみなされる。文化面や言語面で非常に高い異種性を持つ日本語と英語の感情音声を対象として普遍的特徴を探求し汎用モデルを構築する試みが本研究の概要である。
|
研究成果の概要 |
本研究では、異種言語における、特徴正規化とマルチタスク学習に基づくシステム構築により、日本語と英語の異種言語間でも共通的な音声感情の特徴空間を構築できた点が挙げられる。特に、英語音声のみで構築されたシステムへ日本語の音声を入力する言語非依存のタスクにおいて、トリプレットネットワークにより45.05%から80.66%への35.61%の性能向上が得られた。また、ドメイン敵対的ニューラルネットワークに基づくアンサンブル手法を提案し、個別システムでは敵対的ネットワークの認識性能が、ドメイン依存性のマルチタスク学習より低い性能を示すが、提案手法による性能は逆転的に高くなることであった。
|
研究成果の学術的意義や社会的意義 |
実用化の成功が著しい音声認識分野のコーパスとは対照的に、感情音声は低資源問題とも言えるほど学習データが少ないため、実用化が未だに難解な問題であった。本研究は、多言語の感情音声コーパスから感情音声の普遍的特徴空間を構築することであり、感性コミュニケーションを実現するための核心的な研究課題として学術的な意義を持つ。また、言語、性別と感情の3つのタスクを同時に最適化するマルチタスク学習、 アンサンブル手法により、日本語と英語の両方の性能において単一システムの性能を超える多言語システムの性能が得られた研究成果は人間と共感するコミュニケーション機械の開発における社会的な意義が高いと言える。
|