研究概要 |
本研究は,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行っている。 まず,本研究における基本要素であるHMMのモデル化には大量のトレーニングデータが必要となるが,これまで,標準的な日本語の聴覚・視覚音声データベースが存在しなかったことから,今年度は研究基盤整備として聴覚・視覚音声データベースの構築を最優先課題として研究を進めた。一人の男性話者に対して,日本語音韻バランス文503文章の発話をディジタルビデオにより収録し,それにラベル付けを行って聴覚・視覚音声(音声・唇動画像)データベースを作成した。次に,得られたデータベースに基づいて,バイモーダル音声合成に使用する合成単位と唇画像形状特徴パラメータの検討を行った。その結果,音声パラメータと画像パラメータを一つの特徴ベクトルに結合し,前後の音韻環境を考慮した音素モデルを単位としてHMMによりモデル化し,これらのモデルより,動的特徴量を考慮して音声と唇動画像を同時に生成するアルゴリズムを開発した。さらに,より自然性の高いバイモーダル合成音声生成のための特徴パラメータ表現として,直交変換の導入,唇形状表現におけるスプライン関数を導入などの検討を行った。そして,音声駆動型,テキスト駆動型,テキスト-音声駆動型のそれぞれについて合成音声を生成し,従来に比べて,より自然性の高い合成音声の生成が可能なことを確認した。 今後の課題としては,聴覚・視覚音声データベースの拡充とそれに基づくより精密なモデル構築,実用的なバイモーダル音声合成システムの実現があげられる。
|