マルチタスク深層学習における補助損失の動的制御と音声コミュニケーションへの応用
Project/Area Number |
22K12105
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
李 時旭 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (50415642)
|
Co-Investigator(Kenkyū-buntansha) |
伊藤 慶明 岩手県立大学, ソフトウェア情報学部, 教授 (90325928)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 音声感情認識 / 音声信号処理 / 機械学習 / パターン認識 / 深層学習 / 音声言語情報処理 |
Outline of Research at the Start |
コミュニケーションにおける音声信号には、文字化可能な言語情報以外にも話者の性別、年齢、意図、態度、感情などの非言語情報が含有されている。従来は、音声を文字にする言語情報を主な対象とし、非言語情報はノイズとして除去する対象であった。しかし、話者の発話意図を正確に把握するためには、非言語情報の利活用が不可欠である。本研究では、①音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現を抽出するため、マルチタスク学習における補助損失を動的に制御する手法を研究する。②音声から言語情報と非言語情報を統合処理し、従来の音声認識よりリッチな音声言語コミュニケーションの実現を目指す。
|
Outline of Annual Research Achievements |
本研究は、人間と機械の音声コミュニケーションにおいて、発話意図の正確な把握に不可欠な要素である非言語情報の高度処理を目的とする。非言語情報としては、話者の性別、年齢、意図、態度、感情などを処理対象とし、音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現(もつれを解いた表現)を抽出するため、マルチタスク学習における補助損失を動的に制御する手法の研究を行う。 研究初年度として、複数の公開感情音声コーパスを整備し、共通的に使用することを進めた。日本語はJTES(Japanese Twitter-based Emotional Speech)を、英語は音声感情認識の学術分野で共通のベンチマークテストとして広く用いられるIEMOCAP(Interactive Emotional Dyadic Motion Capture )を用いた。まず、個別のコーパスで定義された分類から共通するカテゴリーを設定し、これらをドメイン敵対的学習(Domain-adversarial learning),マルチタスク学習(Multi-task learning)など、タスク以外の素性に着目する学習手法をためした。さらに、膨大な学習データから自己教師付き学習(Self-supervised learning; SSL)による事前学習モデルを用いる予備実験を当初の研究計画に追加し、事前学習モデルの特性を把握するためのgrid-searchを主に行った。結果として、事前学習モデルの違う傾向を確認し、その究明を進めることが研究初年度の主な研究内容であった。特に、自己教師付き学習による事前学習モデルの高性能かつ新たな特性を分析し、本研究課題への融合を研究課題として挙げることが出来た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究初年度として、言語、性別、話者などの相異なる分布を持つ感情音声を用いて、それらの分布を補助タスクと、音声感情を主タスクとするマルチタスク学習(Multi-task learning; MTL)を行った。予備実験として、補助タスクの素性に依存する多様性の特徴空間と排除する不偏性の特徴空間の構築を補助損失の制御により行った。また、近年飛躍的な成果が報告される自己教師あり学習(Self-Supervised Learning; SSL)を用いた事前学習モデルの導入を当初の研究計画に追加した。これらの研究から、自己教師あり学習と従来の教師あり学習(supervised learning)との差を確認できた。その差により、音声感情認識タスクの性能を62%から74%まで向上できることを確認した。その上、本研究の課題である多様かつ不偏な特徴空間をアンサンブル手法により混合した結果、更なる性能向上として78%の世界最高の性能を達した。研究初年度から、これらの予備実験の成果を国際会議へ投稿できたため、本研究課題の進捗状況はおおむね順調に進展していると評価できる。
|
Strategy for Future Research Activity |
今後の研究では、当初の研究計画である2つの項目に加え、自己教師あり学習を用いる事前学習モデルの利活用を新しい研究項目として設定して、以下の三つの項目に基づいて推進する。 1)音声の観測特徴から多様な言語と非言語タスクに特定するdisentangledな表現(もつれを解いた表現)を抽出するため、マルチタスク学習における補助損失を動的に制御する手法を研究する。 2)1)の成果を基に、音声から言語情報と強調や感情などの非言語情報を統合的に処理し、従来の音声認識よりリッチな音声言語コミュニケーションを実現することを目指す。 3)【新たな研究課題】自己教師あり学習を用いる事前学習モデルが生成する特徴空間を分析する。特に、従来の教師あり学習との差を究明することを急ぎ、その結果から多様性と不偏性の最適な融合を持つ高性能かつ不偏的な特徴空間の構築を目指す。
|
Report
(1 results)
Research Products
(3 results)