研究概要 |
人間が関わるコミュニケーションにおいては、視覚と聴覚情報の担う役割が非常に大きい。このため,人間に優しいヒューマンインターフェースを実現する上で,視覚・聴覚を融合したマルチモーダルインターフェースの開発が重要な課題となっている。このようなマルチモーダルインターフェースの一つとして,音声と唇動画像による「バイモーダル音声認識」と,任意の文字テキストから自然な音声と唇の動きを同時に生成する「バイモーダル音声合成」を,「バイモーダル音声入出力システム」として統一された枠組の中で実現することを目指し,以下のような研究を行った. ・唇画像データベースの作成:音節または音素を単位とするHMM作成のために必要な唇画像を音声と同期して収録した。また,同期収録音声に基づいてラベル付けを行った。 ・唇動画像による音声認識唇のためのHMMの学習法について検討し,新たに提案した位置の正規化学習が効果的であることを示した. ・唇動画像の生成については,輪郭モデルを用いるものと,画像ベースのものとを並行して,検討した.いずれにおいても,これまでに提案したHMMからのパラメータ生成アルゴリズムを用いることにより,良好な唇動画像を生成できることを確かめた. ・以上の成果に基づいて,「入力音声に同期した唇動画像を生成するシステム」,「テキストから,音声と唇動画像を同時に生成するシステム」などを構築し,それらの有用性を示した.
|