Project/Area Number |
22K12105
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 / 音声言語情報処理 |
Outline of Research at the Start |
コミュニケーションにおける音声信号には、文字化可能な言語情報以外にも話者の性別、年齢、意図、態度、感情などの非言語情報が含有されている。従来は、音声を文字にする言語情報を主な対象とし、非言語情報はノイズとして除去する対象であった。しかし、話者の発話意図を正確に把握するためには、非言語情報の利活用が不可欠である。本研究では、①音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現を抽出するため、マルチタスク学習における補助損失を動的に制御する手法を研究する。②音声から言語情報と非言語情報を統合処理し、従来の音声認識よりリッチな音声言語コミュニケーションの実現を目指す。
|
Outline of Annual Research Achievements |
本研究は、人間と機械の音声コミュニケーションにおいて、発話意図の正確な把握に不可欠な非言語情報の高度な処理を目的とする。音声の観測特徴表現から多様な言語および非言語タスクのもつれを解くための表現(disentangled representation)を抽出するために、マルチタスク学習における補助損失を動的に制御する手法の研究を進めてきた。 本年度の研究では、自己教師あり学習による事前学習モデルを積極的に取り入れた。事前学習モデルは、音声表現の強力な初期特徴空間を提供することで、多くの性能改善が報告されている。しかし、音声感情認識における少数の学習サンプルでは、膨大な事前学習特徴空間を十分に活用できないという課題があった。そこで、本研究では、特徴空間の有効な利用法を提案した。まず、より補完的な情報を得るために、マルチタスク学習により同じ発話を異なるクラスタにマッピングし、多様な特徴を抽出する。その後、マッピングされた多様な特徴間の相関に基づき、融合手法を検討した。提案手法を日本語と英語の2つの感情音声コーパスで評価した結果、提案手法は事前学習された膨大な特徴空間を効果的に利用できることが示された。特に、世界的に共通ベンチマークデータとして用いられる英語のIEMOCAPコーパスにおいて、非加重平均再現率(UAR; Unweighted Average Recall)78.45%という最先端の性能を達成し、この成果を国際会議で発表することができた。 これらの結果から、本研究は音声感情認識における少数の学習サンプルでも、事前学習モデルを有効に活用するための新しいアプローチを示し、今後の音声コミュニケーション技術の発展に貢献することが期待される。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究の二年目として、近年急速に成果が報告されている自己教師あり学習(Self-Supervised Learning; SSL)を用いた事前学習モデルの導入に成功しました。特に、音声の膨大なデータから構築された事前学習モデルを活用し、多様性の高い特徴空間を効果的に利用する手法を提案しました。本研究の課題である多様で偏りのない特徴空間をアンサンブル手法によって統合した結果、性能向上として世界最高の78%を達成しました。研究初年度からこれらの手法の成果を国際会議で発表できたことから、本研究課題の進捗は順調に進展していると評価されます。 さらに、研究の二年目では、多様な特徴空間から少数の学習データでもドメイン依存性が低い普遍的なモデルを構築する研究を進めています。特に、初年度の研究では英語と日本語の一つずつのデータを用いた実験条件を拡張し、二つの英語データセットと二つの日本語データセットを使用する実験を設定しました。これにより、研究成果の実証実験を確実に行っています。 本研究は、自己教師あり学習を用いた先進的な事前学習モデルの開発において、言語データの多様性を取り入れることで、汎用性の高いモデル構築に寄与しています。結果として、音声認識の分野においても顕著な性能向上を示し、自己教師あり学習の可能性を広げる重要な進展を遂げています。
|
Strategy for Future Research Activity |
今後の研究では、研究の最終年度として、研究成果の実証実験と実装を主な推進方策として進めることになる。特に、自己教師あり学習による事前学習モデルの利活用における問題点の究明と対策を新たな研究課題として取り組む予定である。今後の研究の推進方策を以下の三つの項目にまとめる。 1)音声の観測特徴から多様な言語と非言語タスクに特化したdisentangled(もつれを解いた)表現を抽出するため、マルチタスク学習における補助損失を自動的に制御する(controllable AI)手法を研究する。 2)これまでの研究成果のまとめして、音声から言語情報と強調や感情などの非言語情報を統合的に処理し、従来の音声認識を超える豊かな音声言語コミュニケーションを実現するシステムの開発を目指す。 3)【新たな研究課題】自己教師あり学習を用いた事前学習モデルが生成する特徴空間を分析する。特に、タスクとの因果関係(causality)を考慮した深層学習モデルの構築を目指す。従来のERM(empirical risk minimization)に基づく深層学習では、相関性(correlation)のみを扱うことが多い。この相関性に基づく学習では、学習データへの偏りが弱点となり、その対策として汎用性(generalization)を持つ学習が必要です。普遍性を妨げる疑似の相関関係(spurious correlation)を抽出し、処理する対策手法が求められる。 これらの研究方策に基づき、本研究は、実用的な音声言語アプリケーションにおけるパフォーマンスの向上だけでなく、理論的な深層学習モデルの性能と適用性を広げることに貢献する見込みである。
|