異種言語感情音声コーパスの統合による多言語感情認識システムの開発

研究課題

研究課題/領域番号	19K12059
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
研究期間 (年度)	2019-04-01 – 2022-03-31
研究課題ステータス	完了 (2021年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2019年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 / 感情認識
研究開始時の研究の概要	本研究では、音声信号から言語的な意味と意図・意思・感情なとのパラ言語・非言語情報を統合できる音声に基づく感情認識技術の学術的な基盤研究を目的とする人間は音声による感情を主観的に表現・収容する。また、現在までに開発された様々な言語の感情音声コーパスが異なる分類のカテゴリーを持っており、大規模な学習データを必要とする認識・分類タスクにおいては致命的な弱点となってきた。その一方、感情は言語の壁がないユニバーサル言語ともみなされる。文化面や言語面で非常に高い異種性を持つ日本語と英語の感情音声を対象として普遍的特徴を探求し汎用モデルを構築する試みが本研究の概要である。
研究成果の概要	本研究では、異種言語における、特徴正規化とマルチタスク学習に基づくシステム構築により、日本語と英語の異種言語間でも共通的な音声感情の特徴空間を構築できた点が挙げられる。特に、英語音声のみで構築されたシステムへ日本語の音声を入力する言語非依存のタスクにおいて、トリプレットネットワークにより45.05%から80.66%への35.61%の性能向上が得られた。また、ドメイン敵対的ニューラルネットワークに基づくアンサンブル手法を提案し、個別システムでは敵対的ネットワークの認識性能が、ドメイン依存性のマルチタスク学習より低い性能を示すが、提案手法による性能は逆転的に高くなることであった。
研究成果の学術的意義や社会的意義	実用化の成功が著しい音声認識分野のコーパスとは対照的に、感情音声は低資源問題とも言えるほど学習データが少ないため、実用化が未だに難解な問題であった。本研究は、多言語の感情音声コーパスから感情音声の普遍的特徴空間を構築することであり、感性コミュニケーションを実現するための核心的な研究課題として学術的な意義を持つ。また、言語、性別と感情の3つのタスクを同時に最適化するマルチタスク学習、アンサンブル手法により、日本語と英語の両方の性能において単一システムの性能を超える多言語システムの性能が得られた研究成果は人間と共感するコミュニケーション機械の開発における社会的な意義が高いと言える。

報告書

(4件)

研究成果

(9件)

すべて 2021 2020 2019

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (6件) (うち国際学会 5件)

[雑誌論文] 音声中の検索語検出における音声クエリ・音声ドキュメントのフレームレベル最ゆう系列化照合方式2020
- 著者名/発表者名
  伊藤慶明、岩崎瑛太郎、金子大祐、小嶋和徳、李時旭
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J103-D 号: 12 ページ: 919-928
- DOI
  10.14923/transinfj.2020JDP7030
- ISSN
  1880-4535, 1881-0225
- 年月日
  2020-12-01
- 関連する報告書
  2020 実施状況報告書
- 査読あり
[雑誌論文] 音声中の検索語検出におけるクエリの関連語を利用したリスコアリング方式2020
- 著者名/発表者名
  丹治遥，小嶋和徳，李時旭，南條浩輝, 伊藤慶明
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 61 ページ: 103-112
- NAID
  170000181608
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[雑誌論文] ICASSP 20192019
- 著者名/発表者名
  Shi-wook Lee
- 雑誌名
  
  IEEE Signal Processing Magazine
  
  巻: 35 号: 4 ページ: 5881-5885
- DOI
  10.1109/msp.2018.2834838
- 関連する報告書
  2019 実施状況報告書
- 査読あり
[学会発表] ENSEMBLE OF DOMAIN ADVERSARIAL NEURAL NETWORKS FOR SPEECH EMOTION RECOGNITION2021
- 著者名/発表者名
  Shi-wook Lee
- 学会等名
  IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU2021)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021
- 著者名/発表者名
  Kazuki Hatakeyama, Masahiro Nishino, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  13th Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 関連する報告書
  2021 実績報告書
- 国際学会
[学会発表] DOMAIN GENERALIZATION WITH TRIPLET NETWORK FOR CROSS-CORPUS SPEECH EMOTION RECOGNITION2021
- 著者名/発表者名
  Shi-wook Lee
- 学会等名
  2021 IEEE Spoken Language Technology Workshop (SLT)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021
- 著者名/発表者名
  西野将弘，小嶋和徳，李時旭，伊藤慶明
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2020 実施状況報告書
[学会発表] Reduction of Speech Data Posteriorgrams by Compressing Maximum-likelihood State Sequences in Query by Example2020
- 著者名/発表者名
  Takashi Yokota, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  APSIPA-ASC2020
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] A Rescoring Method Using Web Search and Word Vectors for Spoken Term Detection,2020
- 著者名/発表者名
  H. Tanji, K. Kojima, H. Nanjo, S. Lee, and Y. Itoh
- 学会等名
  APSIPA-ASC2019
- 関連する報告書
  2019 実施状況報告書
- 国際学会

異種言語感情音声コーパスの統合による多言語感情認識システムの開発

研究代表者

李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)

4,290千円 (直接経費: 3,300千円、間接経費: 990千円)

報告書

研究成果

[雑誌論文] 音声中の検索語検出における音声クエリ・音声ドキュメントのフレームレベル最ゆう系列化照合方式2020

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 音声中の検索語検出におけるクエリの関連語を利用したリスコアリング方式2020

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] ICASSP 20192019

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] ENSEMBLE OF DOMAIN ADVERSARIAL NEURAL NETWORKS FOR SPEECH EMOTION RECOGNITION2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Multiple Deep Learning Models and Architectures with Different Numbers of States Used to Improve Retrieval Accuracy of Query-by-Example2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] DOMAIN GENERALIZATION WITH TRIPLET NETWORK FOR CROSS-CORPUS SPEECH EMOTION RECOGNITION2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 異種・複数の深層学習モデルを用いた音声中の検索語検出方式の高精度・低メモリ化2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Reduction of Speech Data Posteriorgrams by Compressing Maximum-likelihood State Sequences in Query by Example2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Rescoring Method Using Web Search and Word Vectors for Spoken Term Detection,2020

著者名/発表者名

学会等名

関連する報告書

李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)