1999 Fiscal Year Annual Research Report

インタラクションシステムのためのバイモーダル音声合成

Research Project

Project/Area Number	11878064
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
Keywords	音声合成 / 隠れマルコフモデル / マルチモーダル / 唇動画像 / 聴覚・視覚音声データベース
Research Abstract	本研究は,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行っている。まず,本研究における基本要素であるHMMのモデル化には大量のトレーニングデータが必要となるが,これまで,標準的な日本語の聴覚・視覚音声データベースが存在しなかったことから,今年度は研究基盤整備として聴覚・視覚音声データベースの構築を最優先課題として研究を進めた。一人の男性話者に対して,日本語音韻バランス文503文章の発話をディジタルビデオにより収録し,それにラベル付けを行って聴覚・視覚音声(音声・唇動画像)データベースを作成した。次に,得られたデータベースに基づいて,バイモーダル音声合成に使用する合成単位と唇画像形状特徴パラメータの検討を行った。その結果,音声パラメータと画像パラメータを一つの特徴ベクトルに結合し,前後の音韻環境を考慮した音素モデルを単位としてHMMによりモデル化し,これらのモデルより,動的特徴量を考慮して音声と唇動画像を同時に生成するアルゴリズムを開発した。さらに,より自然性の高いバイモーダル合成音声生成のための特徴パラメータ表現として,直交変換の導入,唇形状表現におけるスプライン関数を導入などの検討を行った。そして,音声駆動型,テキスト駆動型,テキスト-音声駆動型のそれぞれについて合成音声を生成し,従来に比べて,より自然性の高い合成音声の生成が可能なことを確認した。今後の課題としては,聴覚・視覚音声データベースの拡充とそれに基づくより精密なモデル構築,実用的なバイモーダル音声合成システムの実現があげられる。

Research Products
(2 results)

All Publications (2 results)

[Publications] M.Tamura,S.Kondo,T.Masuko,T.Kobayashi: "Text-to-audio-visual speech synthesis based on parameter generation from HMM"Proc.6th European Conference on Speech Communication and Technology. EUROSPEECH-99・2. 959-962 (1999)
[Publications] 酒向慎司,徳田恵一,北村正,益子貴史,小林隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)