基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究課題

研究課題/領域番号	24300068
研究種目	基盤研究(B)
配分区分	一部基金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 情報理工学(系)研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院工学系研究科, 教授 (90273333) 齋藤大輔東京大学, 大学院工学系研究科, 助教 (40615150)
研究期間 (年度)	2012-04-01 – 2015-03-31
研究課題ステータス	完了 (2014年度)
配分額 *注記	17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円) 2014年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円) 2013年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円) 2012年度: 6,760千円 (直接経費: 5,200千円、間接経費: 1,560千円)
キーワード	基本周波数パターン / 生成過程モデル / 統計的音声合成 / 韻律制御 / 音声変換 / 談話の焦点 / マルチストリーム学習 / 行列変量GMM / HMM音声合成 / Deep Neural Network / マルチストリーム / 統計モデリング / 声質変換 / 焦点制御 / 中国語音声 / 声調核モデル
研究成果の概要	統計的音声合成の学習と合成において、基本周波数パターン(F0)生成過程モデルの制約を適用することで、柔軟な韻律制御と音質向上を実現することを目的として研究を進め、モデルで近似したF0パターンをHMMの学習に用いる手法等を開発するとともに、指令の差分に着目した焦点制御等を実現した。特に、F0パターンをモデルにより階層表現することで、言語情報との明確な対応を保った良好な韻律制御を実現した。この他、行列変量混合ガウス分布による話者の特徴表現、話者依存サブネットワークを有するDeep Neural Networkによる複数話者変換を達成した。中国語についても研究を進め、プロトタイプ音声翻訳を行った。

報告書

(4件)

研究成果
(37件)

すべて 2015 2014 2013 2012

すべて雑誌論文 (18件) (うち査読あり 16件、謝辞記載あり 3件) 学会発表 (18件) (うち招待講演 5件) 図書 (1件)

[雑誌論文] 基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用2015
- 著者名/発表者名
  橋本浩弥, 齋藤大輔, 峯松信明, 広瀬啓吉
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J98-D 号: 3 ページ: 481-491
- DOI
  10.14923/transinfj.2014PDP0030
- ISSN
  1880-4535, 1881-0225
- 年月日
  2015-03-01
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] 基本周波数パターン生成過程モデルの指令の差分に着目した発話の焦点制御2015
- 著者名/発表者名
  越智景子, 広瀬啓吉, 峯松信明
- 雑誌名
  
  電子情報通信学会論文誌D 情報・システム
  
  巻: J98-D 号: 3 ページ: 524-533
- DOI
  10.14923/transinfj.2014JDP7084
- ISSN
  1880-4535, 1881-0225
- 年月日
  2015-03-01
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014
- 著者名/発表者名
  Ya Li, Jianhua Tao, Keikichi Hirose, Wei Lai, Xiaoying Xu
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 1032-1036
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014
- 著者名/発表者名
  Tomoyuki Mizukami, Hiroya Hashimoto, Keikichi Hirose, Daisuke Saito, and Nobuaki Minematsu
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 1042-1046
- 関連する報告書
  2014 実績報告書 2013 実績報告書
- 査読あり / 謝辞記載あり
[雑誌論文] Robust pitch estimation using ensemble empirical mode decomposition2014
- 著者名/発表者名
  Sujan Kumar Roy, Md. Khademul Islam Molla, Keikichi Hirose
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: １ページ: 534-538
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Application of matrix variate Gaussian mixture model to statistical voice conversion2014
- 著者名/発表者名
  Daisuke Saito, Hidenobu Doi, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceedings INTERSPEECH 2014
  
  巻: １ページ: 2504-2508
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proceeedings of Forum Acusticum
  
  巻: １ページ: 1-6
- 関連する報告書
  2014 実績報告書
- 査読あり / 謝辞記載あり
[雑誌論文] Tensor representation for speaker characteristics in speech2014
- 著者名/発表者名
  Daisuke Saito, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceeedings of Forum Acusticum
  
  巻: １ページ: 1-5
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose, Hiroya Hashimoto, Kyota Hyakutake, Daisuke Saito, Nobuaki Minematsu
- 雑誌名
  
  Proceedings IEEE International Conference on Signal Processing
  
  巻: １ページ: 555-560
- 関連する報告書
  2014 実績報告書
- 査読あり / 謝辞記載あり
[雑誌論文] Voice conversion based on matrix variate gaussian mixture model2014
- 著者名/発表者名
  Daisuke Saito, H. Doi, Nobuaki Minematsu, Keikichi Hirose
- 雑誌名
  
  Proceedings IEEE International Conference on Signal Processing
  
  巻: １ページ: 567-576
- 関連する報告書
  2014 実績報告書
- 査読あり
[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014
- 著者名/発表者名
  Ya Li, Jianhua Tao, Keikichi Hirose, Wei Lai, and Xiaoying Xu
- 雑誌名
  
  Proceedings of International Conference on Speech Prosody
  
  巻: 1 ページ: 1032-1036
- 関連する報告書
  2013 実績報告書
- 査読あり
[雑誌論文] Control of fundamental frequencies in HMM-based speech synthesis using generation process model2014
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Proceedings of International Symposium on Frontiers of Research on Speech and Music
  
  巻: 1 ページ: 96-100
- 関連する報告書
  2013 実績報告書
[雑誌論文] Generation of fundamental frequency contours for Thai speech using the tone nucleus model2013
- 著者名/発表者名
  Oraphan Krityakien, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Journal of Signal Processing, Research Institute of Signal Processing
  
  巻: 16 ページ: 135-138
- NAID
  130004849292
- 関連する報告書
  2013 実績報告書
- 査読あり
[雑誌論文] Context labels based on "bunsetsu" for HMM-based speech synthesis of Japanese2013
- 著者名/発表者名
  Hiroya Hashimoto, Keikichi Hirose and Nobuaki Minematsu
- 雑誌名
  
  Proceedings 8th ISCA Workshop on Speech Synthesis
  
  巻: 1 ページ: 35-39
- 関連する報告書
  2013 実績報告書
- 査読あり
[雑誌論文] Toward flexible and systematic control of fundamental frequencies in HMM-based speech synthesis2013
- 著者名/発表者名
  Keikichi Hirose
- 雑誌名
  
  Journal of English Phonetics Society of Japan
  
  巻: 18 ページ: 121-128
- 関連する報告書
  2013 実績報告書
[雑誌論文] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012
- 著者名/発表者名
  Tatsuya Matsuda, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Acoustical Science and Technology, Acoustical Society of Japan
  
  巻: 33 ページ: 221-228
- NAID
  130001853341
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012
- 著者名/発表者名
  Qinghua Sun, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Speech Communication
  
  巻: 54 ページ: 932-945
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] Improved automatic extraction of generation process model commands and its use for generating fundamental frequency contours for training HMM-based2012
- 著者名/発表者名
  Hiroya Hashimoto, Keikichi Hirose, and Nobuaki Minematsu
- 雑誌名
  
  Proceedings INTERSPEECH
  
  巻: CD ページ: 1-4
- 関連する報告書
  2012 実績報告書
- 査読あり
[学会発表] 生成過程モデルによる基本周波数パターンの階層表現とHMM音声合成のマルチストリーム学習2015
- 著者名/発表者名
  島田智大
- 学会等名
  日本音響学会春季講演会
- 発表場所
  中央大学, 文京区, 東京
- 年月日
  2015-03-16 – 2015-03-18
- 関連する報告書
  2014 実績報告書
[学会発表] 複数出力サブネットワークを有するディープニューラルネットワークに基づく声質変換2014
- 著者名/発表者名
  橋本哲弥
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  東京工業大学（すずかけ台）, 横浜市
- 年月日
  2014-12-15 – 2014-12-16
- 関連する報告書
  2014 実績報告書
[学会発表] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  Hangzhou, China
- 年月日
  2014-10-19 – 2014-10-23
- 関連する報告書
  2014 実績報告書
- 招待講演
[学会発表] Voice conversion based on matrix variate gaussian mixture model2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  Hangzhou, China
- 年月日
  2014-10-19 – 2014-10-23
- 関連する報告書
  2014 実績報告書
- 招待講演
[学会発表] Application of matrix variate Gaussian mixture model to statistical voice conversion2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  INTERSPEECH 2014
- 発表場所
  Changi, Singapore
- 年月日
  2014-09-14 – 2014-09-18
- 関連する報告書
  2014 実績報告書
[学会発表] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  Forum Acusticum 2014
- 発表場所
  Krakow, Poland
- 年月日
  2014-09-07 – 2014-09-12
- 関連する報告書
  2014 実績報告書
- 招待講演
[学会発表] Tensor representation for speaker characteristics in speech2014
- 著者名/発表者名
  Daisuke Saito
- 学会等名
  Forum Acusticum 2014
- 発表場所
  Krakow, Poland
- 年月日
  2014-09-07 – 2014-09-12
- 関連する報告書
  2014 実績報告書
- 招待講演
[学会発表] 話者依存サブネットワークを用いた深層学習による多対一声質変換2014
- 著者名/発表者名
  橋本哲哉
- 学会等名
  日本音響学会秋季講演会
- 発表場所
  北海学園大学, 札幌市
- 年月日
  2014-09-03 – 2014-09-05
- 関連する報告書
  2014 実績報告書
[学会発表] 行列変量正規分布の混合モデルとその声質変換への応用2014
- 著者名/発表者名
  齋藤大輔
- 学会等名
  情報処理学会音声言語情報処理研究会
- 発表場所
  ホテル花巻, 花巻市
- 年月日
  2014-07-24 – 2014-07-26
- 関連する報告書
  2014 実績報告書
[学会発表] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014
- 著者名/発表者名
  Ya Li
- 学会等名
  International Conference on Speech Prosody
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
- 関連する報告書
  2014 実績報告書 2013 実績報告書
[学会発表] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014
- 著者名/発表者名
  Tomoyuki Mizukami
- 学会等名
  International Conference on Speech Prosody
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
- 関連する報告書
  2014 実績報告書 2013 実績報告書
[学会発表] Robust pitch estimation using ensemble empirical mode decomposition2014
- 著者名/発表者名
  Sujan Kumar Roy
- 学会等名
  International Conference on Speech Prosod
- 発表場所
  Dublin, Ireland
- 年月日
  2014-05-20 – 2014-05-23
- 関連する報告書
  2014 実績報告書
[学会発表] Control of fundamental frequencies in HMM-based speech synthesis using generation process model2014
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  International Symposium on Frontiers of Research on Speech and Music
- 発表場所
  Mysore, India
- 関連する報告書
  2013 実績報告書
- 招待講演
[学会発表] 生成過程モデルにおけるF0 パターン差分を考慮したHMM音声合成の実験的検討2014
- 著者名/発表者名
  百武恭汰
- 学会等名
  日本音響学会全国大会
- 発表場所
  日本大学, 東京
- 関連する報告書
  2013 実績報告書
[学会発表] 行列変量ガウス混合分布に基づく声質変換の検討2014
- 著者名/発表者名
  土井秀信
- 学会等名
  日本音響学会全国大会
- 発表場所
  日本大学, 東京
- 関連する報告書
  2013 実績報告書
[学会発表] Generation of fundamental frequency contours for Thai speech synthesis using tone nucleus model2013
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  INTERSPEECH 2013
- 発表場所
  Lyon, France
- 関連する報告書
  2013 実績報告書
[学会発表] Context labels based on "bunsetsu" for HMM-based speech synthesis of Japanese2013
- 著者名/発表者名
  Hiroya Hashimoto
- 学会等名
  8th ISCA Workshop on Speech Synthesis
- 発表場所
  Barcelona, Spein
- 関連する報告書
  2013 実績報告書
[学会発表] Use of generation process model for synthesizing fundamental frequency contours in HMM-based speech synthesis2012
- 著者名/発表者名
  Keikichi Hirose
- 学会等名
  IEEE International Conference on Signal Processing
- 発表場所
  北京, 中国(招待講演)
- 年月日
  2012-10-22
- 関連する報告書
  2012 実績報告書
[図書] Speech Prosody in Speech Synthesis: Modeling and generation of prosody for high quality and flexible speech synthesis2015
- 著者名/発表者名
  Ｋｅｉｋｉｃｈｉ　Ｈｉｒｏｓｅ，　Ｊｉｎｈｕａ　Ｔａｏ　（ｅｄｉｔｏｒｓ）
- 総ページ数
  213
- 出版者
  Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ
- 関連する報告書
  2014 実績報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究代表者

広瀬 啓吉 東京大学, 情報理工学(系)研究科, 教授 (50111472)

17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)

報告書

研究成果

[雑誌論文] 基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用2015

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 基本周波数パターン生成過程モデルの指令の差分に着目した発話の焦点制御2015

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Selection of training data for HMM-based speech synthesis from prosodic features - Use of generation process model of fundamental frequency contours -2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Robust pitch estimation using ensemble empirical mode decomposition2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Application of matrix variate Gaussian mixture model to statistical voice conversion2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Use of generation process model for controlling fundamental frequencies in HMM-based speech synthesis2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Tensor representation for speaker characteristics in speech2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Use of fundamental frequencies shaped by generation process model for HMM-based speech synthesis2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Voice conversion based on matrix variate gaussian mixture model2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Hierarchical stress generation with Fujisaki model in expressive speech synthesis2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Control of fundamental frequencies in HMM-based speech synthesis using generation process model2014

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Generation of fundamental frequency contours for Thai speech using the tone nucleus model2013

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Context labels based on "bunsetsu" for HMM-based speech synthesis of Japanese2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Toward flexible and systematic control of fundamental frequencies in HMM-based speech synthesis2013

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Applying generation process model constraint to fundamental frequency contours generated by hidden- Markov-model-based speech synthesis2012

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A method for generation of Mandarin FO contours based on tone nucleus model and superpositional model2012

著者名/発表者名

広瀬啓吉東京大学, 情報理工学(系)研究科, 教授 (50111472)