2000 Fiscal Year Annual Research Report
インタラクションシステムのためのバイモーダル音声合成
Project/Area Number |
11878064
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
|
Co-Investigator(Kenkyū-buntansha) |
益子 貴史 東京工業大学, 大学院・総合理工学研究科, 助手 (90272715)
徳田 恵一 名古屋工業大学, 工学部, 助教授 (20217483)
|
Keywords | 音声合成 / 隠れマルコフモデル(HMM) / マルチモーダル / 唇動画像 / 聴覚・視覚音声データベース |
Research Abstract |
本研究では,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行った。 昨年度までの研究により,本研究における基本要素であるHMMの精密なモデル化には,データベースの拡充と画像データの時間分解能の向上が不可欠であることが明らかになったことから,今年度はまず新たな聴覚・視覚音声(音声・唇動画像)データベースの構築を行った。一人の男性話者に対して,日本語音韻バランス文503文章の発話を,従来と同様DATとディジタルビデオにより収録すると同時に,高速度カメラにより250フレーム毎秒で口の動きを撮影し,ラベル付けを行ってデータベースを作成した。次に,HMMに基づいたバイモーダル音声合成手法として,これまでに提案したモデルベースのアプローチに加え,新たに画像ベースのアプローチを提案し検討を行った。モデルベースアプローチでは,唇形状を表すモデルパラメータ抽出の際,抽出誤りが不可避であることから手修正が必要となる。これに対し画像ベースアプローチでは,画像を直接利用するためパラメータ抽出誤りの影響が生じないことに加え,歯や舌など口の内部も同時にモデル化できる利点がある。実際に,テキスト駆動型システムを構成し,自然性の高いバイモーダル合成音声の生成が可能なことを確認した。 今後は,本研究で構築した聴覚・視覚音声データベースを研究用として他研究者にも公開し,実用的なバイモーダル音声合成システムの実現をめざす予定である。
|
Research Products
(4 results)
-
[Publications] 酒向慎司,徳田恵一,北村正,近藤重一,益子貴史,小林隆夫: "唇動画像と音声によるマルチモーダルデータベースの構築"日本音響学会2000年秋季研究発表会講演論文集. I. 223-224 (2001)
-
[Publications] S.Sako,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "HMM-Based text-to-audio-visual speech synthesis"Proc.6th International Conference on Spoken Language Processing, ICSLP 2000. III. 25-28 (2000)
-
[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた音声・唇動画像の同時生成-画像ベースアプローチ-"日本音響学会2000年秋季研究発表会講演論文集. I. 235-236 (2000)
-
[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集 情報・システム. 2. 234 (2000)