2011 Fiscal Year Annual Research Report
生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳
Project/Area Number |
21300061
|
Research Institution | The University of Tokyo |
Principal Investigator |
広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
|
Keywords | 生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 音声自動翻訳 / 談話焦点 / HMM音声合成 / 声質と調子 / 音声モーフィング |
Research Abstract |
本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。 1.観測あるいは合成で生成されるF0パターンについて、F0モデルの近似を行い、指令パラメータを自動抽出する新しい手法を開発した。HMM声合成との親和性を考慮し、HMMの分布統合で利用する言語情報を指令位置の制約として用い、フレーズ指令を先に検出することで、従来手法と比較して大幅な性能向上を得た。 2.HMM音声合成の学習コーパスのF0パターンをF_0モデルで近似したものとすることにより、HMM]音声合成の音質の向上を達成した。連続したF0パターンを用いることも行ったが、中国語と異なり音質が劣化する場合もあり、さらに検討が必要である。 3.HMM音声合成で生成されるF0パターンをF_0モデルで近似したものとする手法を開発し、音質向上を達成した。さらに、元音声と目標音声の指令パラメータの差分を学習し、元音声のF0パターンを修正することで目標音声を生成する手法を開発し、F0モデルで近似する手法と組み合わせることで、少量のコーパスから談話の焦点を実現した。 4.発話者の音声について、音素GMM(Gaussian Mixture Model)と韻律的特徴から、そこに含まれる意図を抽出する手法を開発した。これまでの音声合成の適応の成果と組み合わせ、談話・意図を再現する音声翻訳の実験を行った。(音声認識は手作業のWizard-of-0Zシステム)
|
Research Products
(4 results)