研究課題/領域番号 |
22J12040
|
配分区分 | 補助金 |
研究機関 | 東京大学 |
研究代表者 |
佐伯 高明 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2022-04-22 – 2024-03-31
|
キーワード | 音声合成 / 音声生成システムの自動評価 / 自己教師あり学習 / 多言語音声処理 |
研究実績の概要 |
今年度,私は特別研究員として多様な言語間での音声翻訳のための音声合成技術・音声復元技術の研究を行った.さらに,国内外の学会で積極的に研究成果を発信した. 私は2022年10月から2023年1月にかけてカーネギーメロン大学のLanguage Technologies Instituteに渡航し,東京大学とも連携しながら多言語音声合成の研究に従事した.テキスト資源を用いた自己教師あり事前学習により,テキスト資源しか得られない言語で音声合成システムを構築する新たな枠組みを提案した.これは,音声合成システムのカバーする言語数を増やし,同時音声翻訳システムの多様化に寄与する研究成果である.この研究成果は,人工知能分野の難関国際会議として知られるIJCAI2023に採択された. また,劣化音声の復元モデルを自己教師あり学習によって構築する新たな枠組みを提案し,Interspeech 2022で口頭発表を行った.これは今後の多様な音声資源の活用に向けて重要な貢献であり,情報処理学会山下記念研究賞やGoogle East Asia Student Travel Grantを受賞した. 音声合成機構を持つ音声翻訳システムの評価に向けて,合成音声の自動評価システムの研究を実施した.我々の評価システムであるUTMOSは,合成音声品質の自動評価の国際コンペティションであるVoiceMOS Challenge 2022で,16個の評価指標のうち10個の指標で1位を獲得するという非常に優れた成績を収めた.このシステムは,音声生成タスクの評価実験を行う上で大変有用なものであり,今後の音声翻訳・音声合成・音声強調など幅広い研究分野での活用が期待される. 以上のように,特別研究員の研究課題に寄与する研究実績を上げることができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
今年度,私の特別研究員研究課題のための研究として,多様な言語間での音声翻訳のための音声合成技術・音声復元技術・自動評価技術に関する研究を行った. 私が提案した,テキストデータを用いた自己教師あり事前学習による音声合成の新たな枠組みは,テキスト資源しか得られない言語で音声合成システムを構築するすることを可能とする.これにより,同時音声翻訳システムの対象言語を飛躍的に拡大することが期待できる.IJCAI2023で発表予定の論文では,異なる言語からの話者埋め込みベクトルを用いた場合も,高品質な音声合成が可能であることを示している.この異言語間話者スタイル転写技術は,元音声の音声情報を考慮した音声翻訳システムを構築する上で重要である. また,我々が開発した音声生成タスクの評価実験に有用な自動評価システムUTMOSは、音声翻訳・音声合成・音声強調などの幅広い研究分野で活用が期待されており,同時音声翻訳の品質向上に寄与するものである. まとめると,私がこれまで実施した研究成果では,「逐次的かつ高品質に音声合成を行う技術」,「異言語間での話者スタイル転写を可能としながら,多言語で音声合成を構築する技術」,および「音声翻訳システムの音声品質を自動評価する技術」の技術を構築した.つまり,特別研究員の研究課題を実現するための要素技術の構築は概ね完了したと考えられる.
|
今後の研究の推進方策 |
【現在までの進捗状況】に示したように,前年度までに実施した研究成果では,「逐次的かつ高品質に音声合成を行う技術」,「異言語間での話者スタイル転写を可能としながら,多言語で音声合成を構築する技術」,および「音声翻訳システムの音声品質を自動評価する技術」の技術を構築した.つまり,特別研究員の研究課題を実現するための要素技術の構築は概ね完了したと考えられる.今後の課題として,上記の技術を統合し,逐次的な異言語間発話スタイル転写を行う技術を構築することが挙げられる. また,前年度の研究に取り組む中で浮上した課題として,現状の多言語音声合成システムのためのデータ量が少ない,言語数が少ない,自然性が限定的である,などの問題がある.これは,音声翻訳システムの性能向上や多様化の面で大きな障壁となる.特に私が目指す同時音声翻訳では,より困難なタスクであるストリーミング音声合成が求められるため,先述の課題の解決は重要である.私は,この課題を解決する上では,様々なデータを活用して音声合成システムを構築することが重要であると考えている.例えば,音声合成のために用意されたデータはごく少量であるのに対し,音声認識のために用いられるデータは,ノイジーである一方,多様かつデータ量も膨大である.私は,音声認識データを用いて多言語音声合成モデルを構築する方法についても今年度の課題として取り組む予定である. 今年度も引き続き研究課題に精力的に取り組むことで,先述の研究課題を進展させることを目指す.
|