2013 Fiscal Year Annual Research Report
自然なヒューマンコンピュータインタラクションのための話し言葉会話音声合成
Project/Area Number |
13J08776
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
郡山 知樹 東京工業大学, 大学院総合理工学研究科, 特別研究員(PD)
|
Keywords | 統計的音声合成 / ガウス過程回帰 / ノンパラメトリックベイズ |
Research Abstract |
会話音声には疑問や確認などの発話意図や「ああ」「うん」などのフィラーといった多様な表現が含まれており、より話し言葉調・会話調らしい音声を生成するためには、音声の説明変数およびモデル化手法の検討が必要である。それに対し、以前の研究において隠れマルコフモデルに基づく音声合成の新たな音声のモデル化手法として、従来手法である音素単位のモデル化に対し、疑問に含まれる上昇調などの韻律的イベントを単位とするモデル化手法を提案している。しかし、以前の研究では音素単位と韻律イベントの単位の相違から同時モデル化が困難であり、結果として自然な話し言葉会話音声の生成には至らなかった。 そこで本研究では、音素や韻律イベントといった複数の音声フレームからなる区間に対してモデル化を行わず、フレームの音声特徴量を直接モデル化する手法を提案した。具体的にはガウス過程回帰と呼ばれるノンパラメトリック回帰手法を使用することで、従来の隠れマルコフモデルを用いた手法に比べて、音声のスペクトル特徴量の再現性が高くなることを示した。さらに、ガウス過程回帰に基づくフレームレベルモデリングにおいて、生成された音声が滑らかに聞こえるように、ガウス過程回帰に使用する入力変数の拡張を行った。また、音声合成システムの学習および生成にかかる時間を削減するための近似手法の導入を行った。さらに、モデル精度を向上させ、音声の自然性を向上させるために、モデルのハイパーパラメータ自動推定手法の検討、および音声の系列内変動を考慮した音声パラメータ生成手法の検討を行った。結果として、従来の隠れマルコフモデルに基づく手法に比べ自然性の向上を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究で提案しているガウス過程回帰に基づく音声合成手法は、話し言葉会話音声などへの応用性の高い手法であるが、これまでの検討はスペクトル特徴量のみの検討であり、話し言葉会話音声に特徴的なピッチ特徴量に対する検討が不十分であったため。
|
Strategy for Future Research Activity |
ピッチ特徴量についての検討を行い、その上でより複雑なピッチ特徴量の現れる話し言葉会話音声に対してモデル化を行い、ガウス過程回帰に基づくフレームレベルモデリングによって柔軟なモデル化が可能であることを示す。また、本年度に発表された話し言葉と演技音声のパラレルデータの収録されたデータベース[1]を用いて、さまざまな話し言葉会話音声に汎用的な説明変数およびモデル化手法の検討を行う。 [1]有本泰子, 河津宏美, "音声チャットを利用したオンラインゲーム感情音声コーパス, "日本音響学会2013年秋季研究発表会講演論文集, 1-P-46a, pp. 385-388. (Sept. 2013)
|