2023 年度実施状況報告書

マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用

研究課題

研究課題/領域番号	22K12105
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
研究分担者	伊藤慶明岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習
研究実績の概要	本研究は、人間と機械の音声コミュニケーションにおいて、発話意図の正確な把握に不可欠な非言語情報の高度な処理を目的とする。音声の観測特徴表現から多様な言語および非言語タスクのもつれを解くための表現（disentangled representation）を抽出するために、マルチタスク学習における補助損失を動的に制御する手法の研究を進めてきた。本年度の研究では、自己教師あり学習による事前学習モデルを積極的に取り入れた。事前学習モデルは、音声表現の強力な初期特徴空間を提供することで、多くの性能改善が報告されている。しかし、音声感情認識における少数の学習サンプルでは、膨大な事前学習特徴空間を十分に活用できないという課題があった。そこで、本研究では、特徴空間の有効な利用法を提案した。まず、より補完的な情報を得るために、マルチタスク学習により同じ発話を異なるクラスタにマッピングし、多様な特徴を抽出する。その後、マッピングされた多様な特徴間の相関に基づき、融合手法を検討した。提案手法を日本語と英語の2つの感情音声コーパスで評価した結果、提案手法は事前学習された膨大な特徴空間を効果的に利用できることが示された。特に、世界的に共通ベンチマークデータとして用いられる英語のIEMOCAPコーパスにおいて、非加重平均再現率（UAR; Unweighted Average Recall）78.45%という最先端の性能を達成し、この成果を国際会議で発表することができた。これらの結果から、本研究は音声感情認識における少数の学習サンプルでも、事前学習モデルを有効に活用するための新しいアプローチを示し、今後の音声コミュニケーション技術の発展に貢献することが期待される。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究の二年目として、近年急速に成果が報告されている自己教師あり学習（Self-Supervised Learning; SSL）を用いた事前学習モデルの導入に成功しました。特に、音声の膨大なデータから構築された事前学習モデルを活用し、多様性の高い特徴空間を効果的に利用する手法を提案しました。本研究の課題である多様で偏りのない特徴空間をアンサンブル手法によって統合した結果、性能向上として世界最高の78％を達成しました。研究初年度からこれらの手法の成果を国際会議で発表できたことから、本研究課題の進捗は順調に進展していると評価されます。さらに、研究の二年目では、多様な特徴空間から少数の学習データでもドメイン依存性が低い普遍的なモデルを構築する研究を進めています。特に、初年度の研究では英語と日本語の一つずつのデータを用いた実験条件を拡張し、二つの英語データセットと二つの日本語データセットを使用する実験を設定しました。これにより、研究成果の実証実験を確実に行っています。本研究は、自己教師あり学習を用いた先進的な事前学習モデルの開発において、言語データの多様性を取り入れることで、汎用性の高いモデル構築に寄与しています。結果として、音声認識の分野においても顕著な性能向上を示し、自己教師あり学習の可能性を広げる重要な進展を遂げています。
今後の研究の推進方策	今後の研究では、研究の最終年度として、研究成果の実証実験と実装を主な推進方策として進めることになる。特に、自己教師あり学習による事前学習モデルの利活用における問題点の究明と対策を新たな研究課題として取り組む予定である。今後の研究の推進方策を以下の三つの項目にまとめる。１）音声の観測特徴から多様な言語と非言語タスクに特化したdisentangled（もつれを解いた）表現を抽出するため、マルチタスク学習における補助損失を自動的に制御する（controllable AI）手法を研究する。２）これまでの研究成果のまとめして、音声から言語情報と強調や感情などの非言語情報を統合的に処理し、従来の音声認識を超える豊かな音声言語コミュニケーションを実現するシステムの開発を目指す。３）【新たな研究課題】自己教師あり学習を用いた事前学習モデルが生成する特徴空間を分析する。特に、タスクとの因果関係（causality）を考慮した深層学習モデルの構築を目指す。従来のERM（empirical risk minimization）に基づく深層学習では、相関性（correlation）のみを扱うことが多い。この相関性に基づく学習では、学習データへの偏りが弱点となり、その対策として汎用性（generalization）を持つ学習が必要です。普遍性を妨げる疑似の相関関係（spurious correlation）を抽出し、処理する対策手法が求められる。これらの研究方策に基づき、本研究は、実用的な音声言語アプリケーションにおけるパフォーマンスの向上だけでなく、理論的な深層学習モデルの性能と適用性を広げることに貢献する見込みである。
次年度使用額が生じた理由	当初の計画では、複数言語の音声データを整備する予備調査と予備実験を考えたが、自己教師あり学習を用いる事前学習モデルの導入が急務であった。また、その二言語に基づく分析を先に急ぎ、大規模な複数言語の音声データを用いる実験を次年度に行うことが研究進行として妥当であると判断した。従いまして、次年度使用額（B-A）を翌年度分として請求した助成金と合わせて、多くの音声感情データの整備と実験に有効的に使用する計画である。

研究成果
(2件)

すべて 2023

すべて学会発表 (2件) (うち国際学会 2件)

[学会発表] Diverse feature mapping and fusion via multitask learning for multilingual speech emotion recognition2023
- 著者名/発表者名
  Shi-wook Lee
- 学会等名
  INTERSPEECH 2023
- 国際学会
[学会発表] Accurate and Practical Query-by-Example Using Multiple Deep Learning Models and Frame Compression Methods2023
- 著者名/発表者名
  Hikaru Yamaga, Kazuki Hatakeyama, Kazunori Kojima, Shi-wook Lee, Yoshiaki Itoh
- 学会等名
  2023 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- 国際学会

2023 年度 実施状況報告書

マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用

研究代表者

李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Diverse feature mapping and fusion via multitask learning for multilingual speech emotion recognition2023

著者名/発表者名

学会等名

[学会発表] Accurate and Practical Query-by-Example Using Multiple Deep Learning Models and Frame Compression Methods2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

李時旭国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)