Project/Area Number |
23K28144
|
Project/Area Number (Other) |
23H03454 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
Basic Section 60030:Statistical science-related
Sections That Are Subject to Joint Review: Basic Section60030:Statistical science-related , Basic Section61030:Intelligent informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
チョ シンキ 京都大学, 情報学研究科, 特定准教授 (70784891)
|
Co-Investigator(Kenkyū-buntansha) |
李 勝 国立研究開発法人情報通信研究機構, ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター, 研究員 (70840940)
|
Project Period (FY) |
2023-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000)
Fiscal Year 2026: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2023: ¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
|
Keywords | 音声対話翻訳 / 意図理解 / 多言語対話 / 感情音声認識 / 音声翻訳 / メタ介入 |
Outline of Research at the Start |
日本は教育環境が日本語中心のため大学等の高等教育研究機関の国際化が進んでいない。近年、深層学習等の進展により文書の機械翻訳精度は大きく改善しているが、多言語対話を支援する信頼できる対話翻訳システムは存在しない。本研究は「音声対話翻訳」という新しい機械翻訳のパラダイムを切り拓き、その基盤技術を創出する。それによって、信頼性の高い多言語対話の支援を実現させ、大学の国際化へ貢献する。
|
Outline of Annual Research Achievements |
本研究は「音声対話翻訳」という新しい機械翻訳のパラダイムを切り拓き、その基盤技術を創出する。音声対話翻訳では、意図を的確に伝えるように韻律を活用し、話者の属性と感情を保つ音声から音声への翻訳を行う。また、多言語対話全体を観察し、対話が意図通りに進んでいない時にシステムが話者らにその旨を提示し発話の修正等を促す。それによって、信頼性の高い多言語対話の支援が実現される。令和5年度では以下の研究開発を行った。 1. 音声認識と話者性別推定の事前訓練による感情音声認識モデルの改善。感情音声認識の2段階fine-tuning手法において、音声認識を用いて自己教師あり学習モデルを事前訓練することによって言語情報を学習させる。また、音声認識と話者性別推定の事前訓練の組みあせてについても調査した。この成果はINTERSPEECH 2023で発表した。 2. 音声対話翻訳コーパスおよびシステムの構築。ビジネスシーン対話対訳コーパスに日英の音声をそれぞれYahoo!クラウドソーシング、Amazon Mechanical Turkを使って性別と出身地とともに付与し、音声対話翻訳コーパスを構築した。このコーパスを用いて、音声認識で原言語の音声をテキストに書き起こし、機械翻訳で原言語のテキストを目的言語のテキストへ翻訳する枠組みを用いて音声対話翻訳システムを構築した。この成果はACL 2023で発表した。 3. 多言語対話メタ観察および介入の実現に向けて、単言語対話での齟齬の定式化およびメタ介入による解消の研究を行った。対話における齟齬は重要な現象であるが、どのような現象であるかは明確でない。対話の齟齬について、Clark の言語使用に関する理論をもとにして整理し、また齟齬の解消には第三者による介入が役立つことを実験的に示した。この成果はNLP 2024で発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
話者属性推定および話者属性を捉えた感情音声認識を令和5年度の研究内容として予定していた。話者属性推定による感情音声認識モデルの性能向上を検証できている。また、音声対話翻訳コーパスおよびシステムの構築ができているため、来年度の研究に向けて準備ができている。
|
Strategy for Future Research Activity |
令和6年度は以下の項目を研究する予定である。 1. 話者属性を捉えた感情音声認識。事前学習言語モデルの利用:音声感情認識のボトルネックはデータの希少さと思われる。日本語・英語感情音声データそれぞれでの予備実験の結果、精度が60%程度に留まる。日本語データで正解の書き起こしデータに対して事前学習言語モデルBERTを用いて感情認識の予備実験を行ったところ精度が80%程度に上がることも確認できている。そこで、テキストの大規模事前学習モデルを音声感情認識に利活用させる研究を行う。 2. 感情を捉えた機械翻訳。2.1) 感情を考慮した翻訳評価セット作成:感情を捉えた機械翻訳を評価するには感情によって意味が異なる評価セットの作成が必要になる。翻訳の曖昧性に着目した映像付きマルチモーダル機械翻訳データセットの構築研究を行っており、そのノウハウを活かして評価セットを作成していく。2.2) 感情テキスト翻訳モデル開発: ドメイン適応、多言語機械翻訳で得られた知見をベースに感情を捉えた機械翻訳モデルを開発する。 3. 話者属性・感情付き音声合成。話者属性・感情付き音声合成の同時学習:話者属性、感情音声のデータでそれぞれのモデルを学習してカスケードのシステムから始め、これまでの音声合成でのノウハウを活用し、話者属性・感情音声合成の同時学習研究を行う。
|