研究課題/領域番号 |
24300068
|
研究種目 |
基盤研究(B)
|
配分区分 | 一部基金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 東京大学 |
研究代表者 |
広瀬 啓吉 東京大学, 情報理工学(系)研究科, 教授 (50111472)
|
研究分担者 |
峯松 信明 東京大学, 大学院工学系研究科, 教授 (90273333)
齋藤 大輔 東京大学, 大学院工学系研究科, 助教 (40615150)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)
2014年度: 5,460千円 (直接経費: 4,200千円、間接経費: 1,260千円)
2013年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2012年度: 6,760千円 (直接経費: 5,200千円、間接経費: 1,560千円)
|
キーワード | 基本周波数パターン / 生成過程モデル / 統計的音声合成 / 韻律制御 / 音声変換 / 談話の焦点 / マルチストリーム学習 / 行列変量GMM / HMM音声合成 / Deep Neural Network / マルチストリーム / 統計モデリング / 声質変換 / 焦点制御 / 中国語音声 / 声調核モデル |
研究成果の概要 |
統計的音声合成の学習と合成において、基本周波数パターン(F0)生成過程モデルの制約を適用することで、柔軟な韻律制御と音質向上を実現することを目的として研究を進め、モデルで近似したF0パターンをHMMの学習に用いる手法等を開発するとともに、指令の差分に着目した焦点制御等を実現した。特に、F0パターンをモデルにより階層表現することで、言語情報との明確な対応を保った良好な韻律制御を実現した。この他、行列変量混合ガウス分布による話者の特徴表現、話者依存サブネットワークを有するDeep Neural Networkによる複数話者変換を達成した。中国語についても研究を進め、プロトタイプ音声翻訳を行った。
|