2011 年度実績報告書

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

研究課題

研究課題/領域番号	21300061
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
キーワード	生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 音声自動翻訳 / 談話焦点 / HMM音声合成 / 声質と調子 / 音声モーフィング
研究概要	本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。 1.観測あるいは合成で生成されるF0パターンについて、F0モデルの近似を行い、指令パラメータを自動抽出する新しい手法を開発した。HMM声合成との親和性を考慮し、HMMの分布統合で利用する言語情報を指令位置の制約として用い、フレーズ指令を先に検出することで、従来手法と比較して大幅な性能向上を得た。 2.HMM音声合成の学習コーパスのF0パターンをF_0モデルで近似したものとすることにより、HMM]音声合成の音質の向上を達成した。連続したF0パターンを用いることも行ったが、中国語と異なり音質が劣化する場合もあり、さらに検討が必要である。 3.HMM音声合成で生成されるF0パターンをF_0モデルで近似したものとする手法を開発し、音質向上を達成した。さらに、元音声と目標音声の指令パラメータの差分を学習し、元音声のF0パターンを修正することで目標音声を生成する手法を開発し、F0モデルで近似する手法と組み合わせることで、少量のコーパスから談話の焦点を実現した。 4.発話者の音声について、音素GMM(Gaussian Mixture Model)と韻律的特徴から、そこに含まれる意図を抽出する手法を開発した。これまでの音声合成の適応の成果と組み合わせ、談話・意図を再現する音声翻訳の実験を行った。(音声認識は手作業のWizard-of-0Zシステム)

研究成果
(4件)

すべて 2012 2011

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] Improvement of prosody in HMM-based speech synthesis using generation process model2011
- 著者名/発表者名
  Miaomiao Wang
- 雑誌名
  
  Journal of Research Institute of Signal Processing
  
  巻: 15 ページ: 279-282
- 査読あり
[雑誌論文] Adaptation of prosody in speech synthesis by changing command values of the generation process model of fundamental frequency2011
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proceedings of INTERSPEECH
  
  巻: 1 ページ: 2793-2796
- 査読あり
[雑誌論文] HMM-based F_0 contour synthesis using the generation process model2011
- 著者名/発表者名
  Tatsuya Matsuda
- 雑誌名
  
  Acoustical Science and Technology, Acoustical Society of Japan
  
  巻: (印刷中)(掲載確定)
- 査読あり
[学会発表] Fundamental frequency contour generation process model for improved and flexible control of prosodic features in hmm-based speech synthesis2012
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  International Symposium on Frontiers of Research on Speech and Music
- 発表場所
  KIIT, Gurgaon, India(招待講演)
- 年月日
  2012-01-19

2011 年度 実績報告書

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

研究代表者

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

研究成果

[雑誌論文] Improvement of prosody in HMM-based speech synthesis using generation process model2011

著者名/発表者名

雑誌名

[雑誌論文] Adaptation of prosody in speech synthesis by changing command values of the generation process model of fundamental frequency2011

著者名/発表者名

雑誌名

[雑誌論文] HMM-based F_0 contour synthesis using the generation process model2011

著者名/発表者名

雑誌名

[学会発表] Fundamental frequency contour generation process model for improved and flexible control of prosodic features in hmm-based speech synthesis2012

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実績報告書

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)