2011 Fiscal Year Annual Research Report

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

Research Project

Project/Area Number	21300061
Research Institution	The University of Tokyo
Principal Investigator	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
Co-Investigator(Kenkyū-buntansha)	峯松信明東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
Keywords	生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 音声自動翻訳 / 談話焦点 / HMM音声合成 / 声質と調子 / 音声モーフィング
Research Abstract	本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。 1.観測あるいは合成で生成されるF0パターンについて、F0モデルの近似を行い、指令パラメータを自動抽出する新しい手法を開発した。HMM声合成との親和性を考慮し、HMMの分布統合で利用する言語情報を指令位置の制約として用い、フレーズ指令を先に検出することで、従来手法と比較して大幅な性能向上を得た。 2.HMM音声合成の学習コーパスのF0パターンをF_0モデルで近似したものとすることにより、HMM]音声合成の音質の向上を達成した。連続したF0パターンを用いることも行ったが、中国語と異なり音質が劣化する場合もあり、さらに検討が必要である。 3.HMM音声合成で生成されるF0パターンをF_0モデルで近似したものとする手法を開発し、音質向上を達成した。さらに、元音声と目標音声の指令パラメータの差分を学習し、元音声のF0パターンを修正することで目標音声を生成する手法を開発し、F0モデルで近似する手法と組み合わせることで、少量のコーパスから談話の焦点を実現した。 4.発話者の音声について、音素GMM(Gaussian Mixture Model)と韻律的特徴から、そこに含まれる意図を抽出する手法を開発した。これまでの音声合成の適応の成果と組み合わせ、談話・意図を再現する音声翻訳の実験を行った。(音声認識は手作業のWizard-of-0Zシステム)

Research Products
(4 results)

All 2012 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Improvement of prosody in HMM-based speech synthesis using generation process model2011
- Author(s)
  Miaomiao Wang
- Journal Title
  
  Journal of Research Institute of Signal Processing
  
  Volume: 15 Pages: 279-282
- Peer Reviewed
[Journal Article] Adaptation of prosody in speech synthesis by changing command values of the generation process model of fundamental frequency2011
- Author(s)
  Keikichi Hirose
- Journal Title
  
  Proceedings of INTERSPEECH
  
  Volume: 1 Pages: 2793-2796
- Peer Reviewed
[Journal Article] HMM-based F_0 contour synthesis using the generation process model2011
- Author(s)
  Tatsuya Matsuda
- Journal Title
  
  Acoustical Science and Technology, Acoustical Society of Japan
  
  Volume: (印刷中)(掲載確定)
- Peer Reviewed
[Presentation] Fundamental frequency contour generation process model for improved and flexible control of prosodic features in hmm-based speech synthesis2012
- Author(s)
  Keikichi Hirose
- Organizer
  International Symposium on Frontiers of Research on Speech and Music
- Place of Presentation
  KIIT, Gurgaon, India(招待講演)
- Year and Date
  2012-01-19

2011 Fiscal Year Annual Research Report

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

Principal Investigator

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

Research Products

[Journal Article] Improvement of prosody in HMM-based speech synthesis using generation process model2011

Author(s)

Journal Title

[Journal Article] Adaptation of prosody in speech synthesis by changing command values of the generation process model of fundamental frequency2011

Author(s)

Journal Title

[Journal Article] HMM-based F_0 contour synthesis using the generation process model2011

Author(s)

Journal Title

[Presentation] Fundamental frequency contour generation process model for improved and flexible control of prosodic features in hmm-based speech synthesis2012

Author(s)

Organizer

Place of Presentation

Year and Date

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)