研究概要 |
平均声からの音声合成という新たな音声合成の枠組みを発展させ,任意の話者の多様な声質・韻律特徴や発話様式・感情表現など,各個人が持っている話し方の個性を自由に表現でき,気の利いた音声インタラクションシステム実現のための基盤技術を確立することを目的として研究を行い,以下の成果が得られた。 1.平均声に基づく多様な音声合成:平均声モデル学習に利用可能なデータ量や話者による変動の影響を受けにくい音響モデル学習法を開発するとともに,平均声モデルを目標とする任意の話者モデルへ変換するためのモデル適応手法として,音韻継続長をより正確にモデル化可能な隠れセミマルコフモデル(HSMM)に基づいた新たな話者適応手法を開発し,平均声に基づく任意話者の声質・韻律特徴を持った合成音声の生成手法を確立した 2.多様なスタイルによる音声合成:隠れマルコフモデル(HMM)に基づく音声合成において,多様な声質による音声合成ができることと同様に,多様な発話スタイル・感情表現(スタイル)を持つ音声を合成できることを示し,多様なスタイル音声合成のためのスタイルモデリング手法,スタイル補間手法,スタイルモーフィング手法,スタイル適応手法,スタイル制御手法等,様々なアプローチを提案し,多様なスタイル音声合成が実現できることを示した。 3.韻律:高品質な音声合成を実現する上で有用となる基盤技術として,瞬時周波数振幅スペクトルの調波構造を利用した雑音に頑健で精度の高い基本周波数抽出手法及び有声/無声判定手法を確立し,新たな音韻継続長やポーズのモデル化手法を提案した。
|