2012 年度実績報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究課題

研究課題/領域番号	24300068
研究種目	基盤研究(B)
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院・工学系研究科, 教授 (90273333) 齋藤大輔東京大学, 大学院・情報理工学研究科, 助教 (40615150)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / 統計モデリング / 音声変換 / 談話の焦点 / 声調核モデル
研究概要	言語情報、さらにはパラ・非言語情報との明確な対応のもとで、単語、句などの長時間にわたる韻律の特徴を離散的な指令として良好に表現し得る生成過程モデルの制約をHMMの学習、合成において適用することにより、音声合成の高品質化を図ると共に、指令の差分に着目することで、種々の音声変換を、少量の音声コーパスでより高精度に実現する。本年度の具体的な成果は下記の通り。 1.中国語音声コーパスとして、中国科学院JianHua Tao教授の協力を得て、感情音声を含め、種々の調子で発声した音声を用意した。日本語音声コーパスについても同様に収録した。 2.経験的モード分割による適応的帯域分割に基づく基本周波数(FO)抽出手法を構築するとともに、観測されるFOパターンに対し、生成過程モデルの最良近似を自動的に高精度に行う手法を開発した。 3.朗読音声について音素モデル(HMM)を作成して日本語と中国語のHMM音声合成を行い、韻律の観点からの問題点を整理した。また、異なる話者・調子へのHMMの適応手法を実装した。なお、HMMの特徴量分布構築のための質問項目を整理し、適応により適したものとした。 4.学習コーパスのFOパターンを生成過程モデルで得られるそれに置き換えて音素HMMを学習してHMM音声合成を行い、従来のHMM音声合成より高品質が得られることを示した。 5.従来のH剛音声合成で得られるFOパターンを生成過程モデルで近似することで、音質が向上すること、また指令を制御することで、談話の焦点を少量の学習コーパスから実現した。 6.中国語については、声調核モデルによる韻律表現と音声合成を行い、その有効性を確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由調子・スタイル空間の構築が途中であるが、一方、生成過程モデルによるFOパターンの自動分析、-学習コーパスの韻律の生成過程モデルによる修正では、学習に悪影響を与えるサンプルの自動削除手法なども含め、当初予定していたよりも多くの成果を挙げることが出来た。
今後の研究の推進方策	HMM音声合成ににおいて、学習時と合成時に生成過程モデルの制約をかけることにより、合成音声の品質が向上することを、それぞれについて示したが、両者を統合することにより更なる性能の向上を図る。合成に用いるFOパターンは生成過程モデルで生成されるため、モデルに基づく焦点付与とスタイル、話者変換手法の構築を進める。生成過程モデルで表現されないFOパターンの差分を音声合成に反映させる手法の開発を目指す。
次年度の研究費の使用計画	初年度は、韻律コーパス・音声合成のための機器を、予定よりも安価で購入することが出来た。2年度目には、音声変換等で計算負荷が増大することが予定されるので、高性能の計算サーバーの購入を予定する。また、初年度は聴取実験等が当初予定より少なかったが、2年度目以降、音声変換実験が本格化するので、それに対応した支出を予定している。

研究成果
(4件)

すべて 2012

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012
- 著者名/発表者名
  Tatsuya Matsuda, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Acoustical Science and Technology, Acoustical Society of Japan
  
  巻: 33 ページ: 221-228
- 査読あり
[雑誌論文] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012
- 著者名/発表者名
  Qinghua Sun, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Speech Communication
  
  巻: 54 ページ: 932-945
- 査読あり
[雑誌論文] Improved automatic extraction of generation process model commands and its use for generating fundamental frequency contours for training HMM-based2012
- 著者名/発表者名
  Hiroya Hashimoto, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Proceedings INTERSPEECH
  
  巻: CD ページ: 1-4
- 査読あり
[学会発表] Use of generation process model for synthesizing fundamental frequency contours in HMM-based speech synthesis2012
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  北京, 中国(招待講演)
- 年月日
  2012-10-22

2012 年度 実績報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究代表者

広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012

著者名/発表者名

雑誌名

[雑誌論文] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012

著者名/発表者名

雑誌名

[雑誌論文] Improved automatic extraction of generation process model commands and its use for generating fundamental frequency contours for training HMM-based2012

著者名/発表者名

雑誌名

[学会発表] Use of generation process model for synthesizing fundamental frequency contours in HMM-based speech synthesis2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実績報告書

広瀬啓吉東京大学, 大学院・情報理工学系研究科, 教授 (50111472)