インタラクションシステムのためのバイモーダル音声合成

研究課題

研究課題/領域番号	11878064
研究種目	萌芽的研究
配分区分	補助金
研究分野	情報システム学(含情報図書館学)
研究機関	東京工業大学
研究代表者	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
研究分担者	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
研究期間 (年度)	1999 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	2,200千円 (直接経費: 2,200千円) 2000年度: 900千円 (直接経費: 900千円) 1999年度: 1,300千円 (直接経費: 1,300千円)
キーワード	音声合成 / 隠れマルコフモデル(HMM) / マルチモーダル / 唇動画像 / 聴覚・視覚音声データベース / 隠れマルコフモデル
研究概要	本研究では,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行った。昨年度までの研究により,本研究における基本要素であるHMMの精密なモデル化には,データベースの拡充と画像データの時間分解能の向上が不可欠であることが明らかになったことから,今年度はまず新たな聴覚・視覚音声(音声・唇動画像)データベースの構築を行った。一人の男性話者に対して,日本語音韻バランス文503文章の発話を,従来と同様DATとディジタルビデオにより収録すると同時に,高速度カメラにより250フレーム毎秒で口の動きを撮影し,ラベル付けを行ってデータベースを作成した。次に,HMMに基づいたバイモーダル音声合成手法として,これまでに提案したモデルベースのアプローチに加え,新たに画像ベースのアプローチを提案し検討を行った。モデルベースアプローチでは,唇形状を表すモデルパラメータ抽出の際,抽出誤りが不可避であることから手修正が必要となる。これに対し画像ベースアプローチでは,画像を直接利用するためパラメータ抽出誤りの影響が生じないことに加え,歯や舌など口の内部も同時にモデル化できる利点がある。実際に,テキスト駆動型システムを構成し,自然性の高いバイモーダル合成音声の生成が可能なことを確認した。今後は,本研究で構築した聴覚・視覚音声データベースを研究用として他研究者にも公開し,実用的なバイモーダル音声合成システムの実現をめざす予定である。

報告書

(2件)

2000 実績報告書
1999 実績報告書

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 酒向慎司,徳田恵一,北村正,近藤重一,益子貴史,小林隆夫: "唇動画像と音声によるマルチモーダルデータベースの構築"日本音響学会2000年秋季研究発表会講演論文集. I. 223-224 (2001)
- 関連する報告書
  2000 実績報告書
[文献書誌] S.Sako,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "HMM-Based text-to-audio-visual speech synthesis"Proc.6th International Conference on Spoken Language Processing, ICSLP 2000. III. 25-28 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた音声・唇動画像の同時生成-画像ベースアプローチ-"日本音響学会2000年秋季研究発表会講演論文集. I. 235-236 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集情報・システム. 2. 234 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] M.Tamura,S.Kondo,T.Masuko,T.Kobayashi: "Text-to-audio-visual speech synthesis based on parameter generation from HMM"Proc.6th European Conference on Speech Communication and Technology. EUROSPEECH-99・2. 959-962 (1999)
- 関連する報告書
  1999 実績報告書
[文献書誌] 酒向慎司,徳田恵一,北村正,益子貴史,小林隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)
- 関連する報告書
  1999 実績報告書

インタラクションシステムのためのバイモーダル音声合成

研究代表者

小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

2,200千円 (直接経費: 2,200千円)

報告書

研究成果

[文献書誌] 酒向慎司,徳田恵一,北村正,近藤重一,益子貴史,小林隆夫: "唇動画像と音声によるマルチモーダルデータベースの構築"日本音響学会2000年秋季研究発表会講演論文集. I. 223-224 (2001)

関連する報告書

[文献書誌] S.Sako,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "HMM-Based text-to-audio-visual speech synthesis"Proc.6th International Conference on Spoken Language Processing, ICSLP 2000. III. 25-28 (2000)

関連する報告書

[文献書誌] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた音声・唇動画像の同時生成-画像ベースアプローチ-"日本音響学会2000年秋季研究発表会講演論文集. I. 235-236 (2000)

関連する報告書

[文献書誌] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集 情報・システム. 2. 234 (2000)

関連する報告書

[文献書誌] M.Tamura,S.Kondo,T.Masuko,T.Kobayashi: "Text-to-audio-visual speech synthesis based on parameter generation from HMM"Proc.6th European Conference on Speech Communication and Technology. EUROSPEECH-99・2. 959-962 (1999)

関連する報告書

[文献書誌] 酒向 慎司,徳田 恵一,北村 正,益子 貴史,小林 隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)

関連する報告書

小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

[文献書誌] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集情報・システム. 2. 234 (2000)

[文献書誌] 酒向慎司,徳田恵一,北村正,益子貴史,小林隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)