2023 Fiscal Year Annual Research Report
元音声の音声言語情報を逐次的に考慮する同時音声翻訳の研究
Project/Area Number |
22KJ0838
|
Allocation Type | Multi-year Fund |
Research Institution | The University of Tokyo |
Principal Investigator |
佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Keywords | 音声翻訳 / 音声合成 / 多言語音声処理 / 音声自動評価 / 多様な音声データ / 自己教師あり表現学習 |
Outline of Annual Research Achievements |
最終年度の成果として,まず,低リソース環境での多言語音声合成手法を提案した.書記素や音素テキストのみを用いた多言語事前学習により,ゼロショットでの音声合成の知識転移を実現し,その有効性を確認した.この成果について,2023年8月に人工知能分野のトップ会議であるIJCAI (採択率約15%)にて 口頭発表を行った.さらに,テキストデータを利用した音声合成のための自己教師あり言語適応手法を提案し,音声/テキストのペアデータが乏しい状況下でより高品質な音声合成が可能であることを示した.この成果は,音声・音響分野のトップジャーナルであるIEEE/ACM TASLPに採録された.これらの多言語音声合成技術は,本研究課題の目的である異言語間での自然な音声コミュニケーションを多様な言語に対して実現する上で必要不可欠な技術である.
また,最終年度には,音声合成や音声翻訳などの音声生成タスクの自動評価に向けて,テキスト生成の自動評価尺度に基づく音声生成の自動評価手法を提案した.これは,自己教師あり音声表現に対して自然言語処理の評価尺度を適用するアプローチであり,現在国際会議Interspeech 2024に投稿中である.これは,音声生成の高精度かつ効率的な自動評価を通して,音声翻訳の品質および表現力向上に寄与する研究成果である.
前年度までに実施した逐次音声合成・音声復元の研究は,それぞれ高品質かつ低遅延な音声翻訳・音声処理のためのデータ整備の上で重要な技術であった.最終年度に実施した多言語音声合成・音声自動評価の研究は,それぞれ音声翻訳システムの言語多様化・音声翻訳システムの評価に強く貢献するものである.従って,研究期間全体を通じて,本研究課題の目的である音声翻訳の性能改善と表現力向上に貢献し,それに向けた基盤技術を構築したと言える.
|