2014 年度実績報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究課題

研究課題/領域番号	24300068
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 情報理工学(系)研究科, 教授 (50111472)
研究分担者	齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150) 峯松信明東京大学, 工学(系)研究科(研究院), 教授 (90273333)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	基本周波数パターン / 生成過程モデル / HMM音声合成 / 韻律制御 / Deep Neural Network / 音声変換 / 談話の焦点 / マルチストリーム
研究実績の概要	基本周波数パターン生成過程モデルの制約をHMMの学習と合成に適用し、高品質音声合成を達成すると共に、モデルの指令差分に着目することで、種々の音声変換を少量の音声コーパスで高精度に実現することを目的とし、以下の成果を達成した。 1. 学習音声コーパスの各サンプルの基本周波数パターンを、生成過程モデルの枠組みで、フレーズ成分、アクセント成分、残差（モデルで表現されない成分）として階層表現し、それぞれをマルチストリームとして個別にHMMの学習・合成対象とすることにより、階層表現しない従来と比べ、発話内容の言語情報と基本周波数とのより明確な対応を実現した。これにより、目標音声との基本周波数パターンの一致度、及び、合成音声の主観評価値の向上を実現した。なお、基本周波数のモデル化として、MSD-HMMが一般的であるが、有声・無声の境界での表現に問題があった。これに対して、連続F0-HMMを利用可能とした。 2．上記で得られる基本周波数パターンが、生成過程モデルにより高精度に近似し得ることを確認した。その上で、モデルの指令を制御することで、談話の焦点を少量の学習コーパスから実現した。 3．多人数話者の音声データを効率よく利用し、話者変換精度を上げる手法として、各話者の特徴を行列変量混合ガウス分布として表現した上で、変換モデルを構築する手法を開発した。これにより、従来の混合ガウス分布による固有声声質変換法を超える性能を達成した。 4．Deep Neural Networkに基づく多人数話者間の声質変換手法を開発した。1つの話者非依存サブネットワークと複数話者の話者依存サブネットワークからなる構造とすることで、話者非依存な特徴量変換と話者依存の特徴量変換とを分けて効率的な学習を実現し、従来手法を超える変換性能を達成した。 5．日本語‐中国語のプロトタイプ音声翻訳システム構築して話者性を保存した言語変換を試みることで、これまでの成果の検証を行った。
現在までの達成度 (段落)	26年度が最終年度であるため、記入しない。
今後の研究の推進方策	26年度が最終年度であるため、記入しない。
次年度使用額が生じた理由	26年度が最終年度であるため、記入しない。
次年度使用額の使用計画	26年度が最終年度であるため、記入しない。

研究成果
(23件)

すべて 2015 2014

すべて雑誌論文 (10件) (うち査読あり 10件、謝辞記載あり 3件) 学会発表 (12件) (うち招待講演 4件) 図書 (1件)

[雑誌論文] HMM音声合成を目的とした基本周波数パターン生成過程モデルのモデルパラメータ自動推定2015
- 著者名/発表者名
  橋本浩弥, 齋藤大輔, 峯松信明, 広瀬啓吉
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: J98-D ページ: 481-491
- DOI
  10.14923/transinfj.2014PDP0030
- 査読あり
[雑誌論文] 基本周波数パターン生成過程モデルの指令の差分に着目した発話の焦点制御2015
- 著者名/発表者名
  越智景子, 広瀬啓吉, 峯松信明
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: J98-D ページ: 524-533
- DOI
  10.14923/transinfj.2014JDP7084
- 査読あり
[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014
- 著者名/発表者名
  Ya Li, Jianhua Tao, Keikichi Hirose, Wei Lai, Xiaoying Xu
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 1032-1036
- 査読あり
[雑誌論文] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014
- 著者名/発表者名
  Tomoyuki Mizukami, Hiroya Hashimoto, Keikichi Hirose, Daisuke Saito, and Nobuaki Minematsu
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 1042-1046
- 査読あり / 謝辞記載あり
[雑誌論文] Robust pitch estimation using ensemble empirical mode decomposition2014
- 著者名/発表者名
  Sujan Kumar Roy, Md. Khademul Islam Molla, Keikichi Hirose
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 534-538
- 査読あり
[雑誌論文] Application of matrix variate Gaussian mixture model to statistical voice conversion2014
- 著者名/発表者名
  Daisuke Saito, Hidenobu Doi, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceedings INTERSPEECH 2014
  
  巻: １ページ: 2504-2508
- 査読あり
[雑誌論文] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proceeedings of Forum Acusticum
  
  巻: １ページ: １－６
- 査読あり / 謝辞記載あり
[雑誌論文] Tensor representation for speaker characteristics in speech2014
- 著者名/発表者名
  Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceeedings of Forum Acusticum
  
  巻: １ページ: １－５
- 査読あり
[雑誌論文] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose, Hiroya Hashimoto, Kyota Hyakutake, Daisuke Saito, Nobuaki Minematsu
- 雑誌名
  
  Proceedings IEEE International Conference on Signal Processing
  
  巻: １ページ: 555-560
- 査読あり / 謝辞記載あり
[雑誌論文] Voice conversion based on matrix variate gaussian mixture model2014
- 著者名/発表者名
  Daisuke Saito, H. Doi, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceedings IEEE International Conference on Signal Processing
  
  巻: １ページ: 567-576
- 査読あり
[学会発表] 生成過程モデルによる基本周波数パターンの階層表現とHMM音声合成のマルチストリーム学習2015
- 著者名/発表者名
  島田智大
- 学会等名
  日本音響学会春季講演会
- 発表場所
  中央大学, 文京区, 東京
- 年月日
  2015-03-16 – 2015-03-18
[学会発表] 複数出力サブネットワークを有するディープニューラルネットワークに基づく声質変換2014
- 著者名/発表者名
  橋本哲弥
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  東京工業大学（すずかけ台）, 横浜市
- 年月日
  2014-12-15 – 2014-12-16
[学会発表] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  Hangzhou, China
- 年月日
  2014-10-19 – 2014-10-23
- 招待講演
[学会発表] Voice conversion based on matrix variate gaussian mixture model2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  Hangzhou, China
- 年月日
  2014-10-19 – 2014-10-23
- 招待講演
[学会発表] Application of matrix variate Gaussian mixture model to statistical voice conversion2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  INTERSPEECH 2014
- 発表場所
  Changi, Singapore
- 年月日
  2014-09-14 – 2014-09-18
[学会発表] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  Forum Acusticum 2014
- 発表場所
  Krakow, Poland
- 年月日
  2014-09-07 – 2014-09-12
- 招待講演
[学会発表] Tensor representation for speaker characteristics in speech2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  Forum Acusticum 2014
- 発表場所
  Krakow, Poland
- 年月日
  2014-09-07 – 2014-09-12
- 招待講演
[学会発表] 話者依存サブネットワークを用いた深層学習による多対一声質変換2014
- 著者名/発表者名
  橋本哲哉
- 学会等名
  日本音響学会秋季講演会
- 発表場所
  北海学園大学, 札幌市
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] 行列変量正規分布の混合モデルとその声質変換への応用2014
- 著者名/発表者名
  齋藤大輔
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  ホテル花巻, 花巻市
- 年月日
  2014-07-24 – 2014-07-26
[学会発表] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014
- 著者名/発表者名
  Ya Li
- 学会等名
  International Conference on Speech Prosody
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
[学会発表] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014
- 著者名/発表者名
  Tomoyuki Mizukami
- 学会等名
  International Conference on Speech Prosody
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
[学会発表] Robust pitch estimation using ensemble empirical mode decomposition2014
- 著者名/発表者名
  Sujan Kumar Roy
- 学会等名
  International Conference on Speech Prosod
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
[図書] Speech Prosody in Speech Synthesis: Modeling and generation of prosody for high quality and flexible speech synthesis2015
- 著者名/発表者名
  Ｋｅｉｋｉｃｈｉ　Ｈｉｒｏｓｅ，　Ｊｉｎｈｕａ　Ｔａｏ　（ｅｄｉｔｏｒｓ）
- 総ページ数
  213
- 出版者
  Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ

2014 年度 実績報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究代表者

広瀬 啓吉 東京大学, 情報理工学(系)研究科, 教授 (50111472)

研究成果

[雑誌論文] HMM音声合成を目的とした基本周波数パターン生成過程モデルのモデルパラメータ自動推定2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] 基本周波数パターン生成過程モデルの指令の差分に着目した発話の焦点制御2015

著者名/発表者名

雑誌名

DOI

[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014

著者名/発表者名

雑誌名

[雑誌論文] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014

著者名/発表者名

雑誌名

[雑誌論文] Robust pitch estimation using ensemble empirical mode decomposition2014

著者名/発表者名

雑誌名

[雑誌論文] Application of matrix variate Gaussian mixture model to statistical voice conversion2014

著者名/発表者名

雑誌名

[雑誌論文] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014

著者名/発表者名

雑誌名

[雑誌論文] Tensor representation for speaker characteristics in speech2014

著者名/発表者名

雑誌名

[雑誌論文] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014

著者名/発表者名

雑誌名

[雑誌論文] Voice conversion based on matrix variate gaussian mixture model2014

著者名/発表者名

雑誌名

[学会発表] 生成過程モデルによる基本周波数パターンの階層表現とHMM音声合成のマルチストリーム学習2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 複数出力サブネットワークを有するディープニューラルネットワークに基づく声質変換2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Voice conversion based on matrix variate gaussian mixture model2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Application of matrix variate Gaussian mixture model to statistical voice conversion2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Tensor representation for speaker characteristics in speech2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 話者依存サブネットワークを用いた深層学習による多対一声質変換2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 行列変量正規分布の混合モデルとその声質変換への応用2014

著者名/発表者名

学会等名

2014 年度実績報告書

広瀬啓吉東京大学, 情報理工学(系)研究科, 教授 (50111472)