2010 年度実績報告書

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

研究課題

研究課題/領域番号	21300061
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
キーワード	生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 発話スタイル / HMM音声合成 / 声調核 / 多言語 / 音素長
研究概要	本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。 1.F_0モデルの指令の差分に着目した韻律の適応手法を開発し、既に焦点制御に有効なことを実証しているが、さらに発話スタイルの適応に有効かどうかを調べた。丁寧とぞんざいについて実験を行い、丁寧については手法が有効であることを合成音声の聴取実験を行って確認した。ぞんざいについては効果が確認できなかったが、音声コーパスにも問題があると考えられる。なお、韻律の適応に際しては、F_0パターンのみならず、休止長、音素長についても、同様に差分に基づく適応を行った。 2.中国語音声を対象としたHMM音声合成において、安定したF_0パターンが観測される声調核のみを推定し、他の部分は補間によって生成する手法を開発した。音声合成の聴取により、全体のF_0パターンを推定する従来手法と比べ、音質が向上することを示した。また、音声コーパスのF_0パターンに対し、F_0モデルによる補間を行うことで、無声/有声区間の誤りによる音質の劣化の解消に有効であるとともに、音素長の推定にも有効であることを示した。さらに、統語解析により音素長の推定向上を達成した。 3.HMM音声合成で生成されるF_0パターンについて、F_0モデルの最良近似を行う手法を開発しているが、マイクロプロソディーに対応する極値等を最良近似の対象から除外することで、さらに音質が向上した。

研究成果
(4件)

すべて 2011 2010

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] Improvement of prosody in HMM-based speech synthesis using generation process model2011
- 著者名/発表者名
  Miaomiao Wang
- 雑誌名
  
  Journal of Signal Processing
  
  巻: 15(7月号掲載)
- 査読あり
[雑誌論文] MM-based synthesis of fundamental frequency contours using the generation process model2010
- 著者名/発表者名
  Tetsuya Matsuda
- 雑誌名
  
  Journal of Signal Processing
  
  巻: 14 ページ: 277-280
- 査読あり
[雑誌論文] Improving Mandarin segmental duration prediction with automatically extracted syntax features2010
- 著者名/発表者名
  Miaomiao Wen
- 雑誌名
  
  Proceedings of INTERSPEECH
  
  巻: 1 ページ: 2178-2181
- 査読あり
[学会発表] Control of prosodic features in corpus-based generation of fundamental frequency contours based on the generation process model2010
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  Taiyangdao Hotel, Beijing, Chin
- 年月日
  2010-10-27

2010 年度 実績報告書

生成過程モデルに基づく表現力豊かな多言語音声合成とそれによる音声自動翻訳

研究代表者

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

研究成果

[雑誌論文] Improvement of prosody in HMM-based speech synthesis using generation process model2011

著者名/発表者名

雑誌名

[雑誌論文] MM-based synthesis of fundamental frequency contours using the generation process model2010

著者名/発表者名

雑誌名

[雑誌論文] Improving Mandarin segmental duration prediction with automatically extracted syntax features2010

著者名/発表者名

雑誌名

[学会発表] Control of prosodic features in corpus-based generation of fundamental frequency contours based on the generation process model2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)