2014 年度研究成果報告書

基本周波数パターン生成過程モデルによる統計モデリング音声合成の韻律制御の高度化

研究課題

PDF

研究課題/領域番号	24300068
研究種目	基盤研究(B)
配分区分	一部基金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	東京大学
研究代表者	広瀬啓吉東京大学, 情報理工学(系)研究科, 教授 (50111472)
研究分担者	峯松信明東京大学, 大学院工学系研究科, 教授 (90273333) 齋藤大輔東京大学, 大学院工学系研究科, 助教 (40615150)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	基本周波数パターン / 生成過程モデル / 統計的音声合成 / 韻律制御 / 音声変換 / 談話の焦点 / マルチストリーム学習 / 行列変量GMM
研究成果の概要	統計的音声合成の学習と合成において、基本周波数パターン(F0)生成過程モデルの制約を適用することで、柔軟な韻律制御と音質向上を実現することを目的として研究を進め、モデルで近似したF0パターンをHMMの学習に用いる手法等を開発するとともに、指令の差分に着目した焦点制御等を実現した。特に、F0パターンをモデルにより階層表現することで、言語情報との明確な対応を保った良好な韻律制御を実現した。この他、行列変量混合ガウス分布による話者の特徴表現、話者依存サブネットワークを有するDeep Neural Networkによる複数話者変換を達成した。中国語についても研究を進め、プロトタイプ音声翻訳を行った。
自由記述の分野	音声言語情報処理