研究課題/領域番号 |
22KJ0838
|
補助金の研究課題番号 |
22J12040 (2022)
|
研究種目 |
特別研究員奨励費
|
配分区分 | 基金 (2023) 補助金 (2022) |
応募区分 | 国内 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京大学 |
研究代表者 |
佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2023-03-08 – 2024-03-31
|
研究課題ステータス |
中途終了 (2023年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2023年度: 800千円 (直接経費: 800千円)
2022年度: 900千円 (直接経費: 900千円)
|
キーワード | 音声翻訳 / 音声合成 / 多言語音声処理 / 音声自動評価 / 多様な音声データ / 自己教師あり表現学習 / 音声生成システムの自動評価 / 自己教師あり学習 |
研究開始時の研究の概要 |
同時音声翻訳は,異言語間でのリアルタイムな音声コミュニケーションを実現する技術である.同時音声翻訳による円滑な音声コミュニケーションのためには,単に言語的な情報を翻訳して出力するだけでなく,話し方など,元音声に含まれる音声情報も反映することが求められる.本研究では,抑揚・感情などの発話スタイルを反映した同時音声翻訳の実現を目的とする.この研究課題の実現のため,まず,高速・逐次的・高品質な多言語音声合成手法を考案する.さらに,異言語間での発話スタイル変換のために,言語に非依存な発話スタイル表現を獲得するための深層学習手法を実現する.
|
研究実績の概要 |
最終年度の成果として,まず,低リソース環境での多言語音声合成手法を提案した.書記素や音素テキストのみを用いた多言語事前学習により,ゼロショットでの音声合成の知識転移を実現し,その有効性を確認した.この成果について,2023年8月に人工知能分野のトップ会議であるIJCAI (採択率約15%)にて 口頭発表を行った.さらに,テキストデータを利用した音声合成のための自己教師あり言語適応手法を提案し,音声/テキストのペアデータが乏しい状況下でより高品質な音声合成が可能であることを示した.この成果は,音声・音響分野のトップジャーナルであるIEEE/ACM TASLPに採録された.これらの多言語音声合成技術は,本研究課題の目的である異言語間での自然な音声コミュニケーションを多様な言語に対して実現する上で必要不可欠な技術である.
また,最終年度には,音声合成や音声翻訳などの音声生成タスクの自動評価に向けて,テキスト生成の自動評価尺度に基づく音声生成の自動評価手法を提案した.これは,自己教師あり音声表現に対して自然言語処理の評価尺度を適用するアプローチであり,現在国際会議Interspeech 2024に投稿中である.これは,音声生成の高精度かつ効率的な自動評価を通して,音声翻訳の品質および表現力向上に寄与する研究成果である.
前年度までに実施した逐次音声合成・音声復元の研究は,それぞれ高品質かつ低遅延な音声翻訳・音声処理のためのデータ整備の上で重要な技術であった.最終年度に実施した多言語音声合成・音声自動評価の研究は,それぞれ音声翻訳システムの言語多様化・音声翻訳システムの評価に強く貢献するものである.従って,研究期間全体を通じて,本研究課題の目的である音声翻訳の性能改善と表現力向上に貢献し,それに向けた基盤技術を構築したと言える.
|