研究課題/領域番号 |
21300061
|
研究機関 | 東京大学 |
研究代表者 |
広瀬 啓吉 東京大学, 大学院・情報理工学系研究科, 教授 (50111472)
|
研究分担者 |
峯松 信明 東京大学, 大学院・情報理工学系研究科, 准教授 (90273333)
|
キーワード | 生成過程モデル / 基本周波数パターン / コーパスベース韻律制御 / 発話スタイル / HMM音声合成 / 声調核 / 多言語 / 音素長 |
研究概要 |
本研究は、"基本周波数パターン生成過程モデル(F_0モデル)の枠組みでのコーパスベース韻律制御に基づく音声合成"をもとに、多言語の韻律制御の研究を統合的に進め、声質や調子の柔軟な制御が可能な音声合成手法を当該言語について開発すると共に、それによって、もとの発話の声質・調子、あるいは意図・態度・感情等を翻訳後の音声に反映させることを行うもので、本年度は下記の成果を達成した。 1.F_0モデルの指令の差分に着目した韻律の適応手法を開発し、既に焦点制御に有効なことを実証しているが、さらに発話スタイルの適応に有効かどうかを調べた。丁寧とぞんざいについて実験を行い、丁寧については手法が有効であることを合成音声の聴取実験を行って確認した。ぞんざいについては効果が確認できなかったが、音声コーパスにも問題があると考えられる。なお、韻律の適応に際しては、F_0パターンのみならず、休止長、音素長についても、同様に差分に基づく適応を行った。 2.中国語音声を対象としたHMM音声合成において、安定したF_0パターンが観測される声調核のみを推定し、他の部分は補間によって生成する手法を開発した。音声合成の聴取により、全体のF_0パターンを推定する従来手法と比べ、音質が向上することを示した。また、音声コーパスのF_0パターンに対し、F_0モデルによる補間を行うことで、無声/有声区間の誤りによる音質の劣化の解消に有効であるとともに、音素長の推定にも有効であることを示した。さらに、統語解析により音素長の推定向上を達成した。 3.HMM音声合成で生成されるF_0パターンについて、F_0モデルの最良近似を行う手法を開発しているが、マイクロプロソディーに対応する極値等を最良近似の対象から除外することで、さらに音質が向上した。
|