研究課題/領域番号 |
13J08776
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 東京工業大学 |
研究代表者 |
郡山 知樹 東京工業大学, 総合理工学研究科, 助教
|
研究期間 (年度) |
2013-04-01 – 2015-03-31
|
研究課題ステータス |
完了 (2014年度)
|
配分額 *注記 |
2,300千円 (直接経費: 2,000千円、間接経費: 300千円)
2014年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2013年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | 音声合成 / 話し言葉 / 統計的機械学習 / ガウス過程回帰 / 隠れマルコフモデル / 統計的音声合成 / ノンパラメトリックベイズ |
研究実績の概要 |
今日まで音声合成で広く研究の対象となっていたものは朗読調・アナウンス調の音声であった。近年の研究により、比較的低コストで楽しげや怒りといった感情表現・発話様式を再現することが可能であることが報告されているが、日常会話で用いられるような話し言葉調の自然な音声を合成できるまでには至っていない。その理由として、自発的な会話音声に含まれる疑問や確認などの発話意図や「ああ」「うん」などのフィラーといった多様な表現を実現するための、データベースの構築・音声の説明変数の選択・モデル化手法に対して十分な検討が行われていないという問題点がある。 研究代表者は隠れマルコフモデルに基づく音声合成(HMM音声合成)を話し言葉調の音声に適用する手法として、従来手法である音素単位のモデル化に対し、疑問に含まれる上昇調などの韻律的イベントを単位とするモデル化手法を提案した。しかし、HMM音声合成における状態単位のモデル化という制約から自然な話し言葉会話音声の生成には至らなかった。 そこで、本研究ではHMMのように状態単位ではなくフレーム単位で音声をモデル化するガウス過程回帰に基づく新たな音声合成手法(GPR音声合成)を提案した。読み上げ調の音声に対し、音声の音韻を表すスペクトルおよび韻律を表すF0のモデル化を行い、従来のHMM音声合成に比べ自然性の高い音声を合成できることを示した。GPR音声合成は柔軟性の高い手法であり、話し言葉に特有の入力変数の導入が容易であることから、今後話し言葉会話音声における自然性の向上に繋がると考えられる。
|
現在までの達成度 (段落) |
26年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
26年度が最終年度であるため、記入しない。
|