研究概要 |
本研究では,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行った。 昨年度までの研究により,本研究における基本要素であるHMMの精密なモデル化には,データベースの拡充と画像データの時間分解能の向上が不可欠であることが明らかになったことから,今年度はまず新たな聴覚・視覚音声(音声・唇動画像)データベースの構築を行った。一人の男性話者に対して,日本語音韻バランス文503文章の発話を,従来と同様DATとディジタルビデオにより収録すると同時に,高速度カメラにより250フレーム毎秒で口の動きを撮影し,ラベル付けを行ってデータベースを作成した。次に,HMMに基づいたバイモーダル音声合成手法として,これまでに提案したモデルベースのアプローチに加え,新たに画像ベースのアプローチを提案し検討を行った。モデルベースアプローチでは,唇形状を表すモデルパラメータ抽出の際,抽出誤りが不可避であることから手修正が必要となる。これに対し画像ベースアプローチでは,画像を直接利用するためパラメータ抽出誤りの影響が生じないことに加え,歯や舌など口の内部も同時にモデル化できる利点がある。実際に,テキスト駆動型システムを構成し,自然性の高いバイモーダル合成音声の生成が可能なことを確認した。 今後は,本研究で構築した聴覚・視覚音声データベースを研究用として他研究者にも公開し,実用的なバイモーダル音声合成システムの実現をめざす予定である。
|