インタラクションシステムのためのバイモーダル音声合成

Research Project

Project/Area Number	11878064
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	情報システム学(含情報図書館学)
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)
Co-Investigator(Kenkyū-buntansha)	益子貴史東京工業大学, 大学院・総合理工学研究科, 助手 (90272715) 徳田恵一名古屋工業大学, 工学部, 助教授 (20217483)
Project Period (FY)	1999 – 2000
Project Status	Completed (Fiscal Year 2000)
Budget Amount *help	¥2,200,000 (Direct Cost: ¥2,200,000) Fiscal Year 2000: ¥900,000 (Direct Cost: ¥900,000) Fiscal Year 1999: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords	音声合成 / 隠れマルコフモデル(HMM) / マルチモーダル / 唇動画像 / 聴覚・視覚音声データベース / 隠れマルコフモデル
Research Abstract	本研究では,任意の文字テキストまたは音声波形が与えられた際,それに対応する音声及び同期のとれた唇の動きを生成する「バイモーダル音声合成」を実現するために,隠れマルコフモデル(HMM)に基づいた新たな枠組みを開拓することを目的として研究を行った。昨年度までの研究により,本研究における基本要素であるHMMの精密なモデル化には,データベースの拡充と画像データの時間分解能の向上が不可欠であることが明らかになったことから,今年度はまず新たな聴覚・視覚音声(音声・唇動画像)データベースの構築を行った。一人の男性話者に対して,日本語音韻バランス文503文章の発話を,従来と同様DATとディジタルビデオにより収録すると同時に,高速度カメラにより250フレーム毎秒で口の動きを撮影し,ラベル付けを行ってデータベースを作成した。次に,HMMに基づいたバイモーダル音声合成手法として,これまでに提案したモデルベースのアプローチに加え,新たに画像ベースのアプローチを提案し検討を行った。モデルベースアプローチでは,唇形状を表すモデルパラメータ抽出の際,抽出誤りが不可避であることから手修正が必要となる。これに対し画像ベースアプローチでは,画像を直接利用するためパラメータ抽出誤りの影響が生じないことに加え,歯や舌など口の内部も同時にモデル化できる利点がある。実際に,テキスト駆動型システムを構成し,自然性の高いバイモーダル合成音声の生成が可能なことを確認した。今後は,本研究で構築した聴覚・視覚音声データベースを研究用として他研究者にも公開し,実用的なバイモーダル音声合成システムの実現をめざす予定である。

Report

(2 results)

2000 Annual Research Report
1999 Annual Research Report

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] 酒向慎司,徳田恵一,北村正,近藤重一,益子貴史,小林隆夫: "唇動画像と音声によるマルチモーダルデータベースの構築"日本音響学会2000年秋季研究発表会講演論文集. I. 223-224 (2001)
- Related Report
  2000 Annual Research Report
[Publications] S.Sako,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "HMM-Based text-to-audio-visual speech synthesis"Proc.6th International Conference on Spoken Language Processing, ICSLP 2000. III. 25-28 (2000)
- Related Report
  2000 Annual Research Report
[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた音声・唇動画像の同時生成-画像ベースアプローチ-"日本音響学会2000年秋季研究発表会講演論文集. I. 235-236 (2000)
- Related Report
  2000 Annual Research Report
[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集情報・システム. 2. 234 (2000)
- Related Report
  2000 Annual Research Report
[Publications] M.Tamura,S.Kondo,T.Masuko,T.Kobayashi: "Text-to-audio-visual speech synthesis based on parameter generation from HMM"Proc.6th European Conference on Speech Communication and Technology. EUROSPEECH-99・2. 959-962 (1999)
- Related Report
  1999 Annual Research Report
[Publications] 酒向慎司,徳田恵一,北村正,益子貴史,小林隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)
- Related Report
  1999 Annual Research Report

インタラクションシステムのためのバイモーダル音声合成

Principal Investigator

小林 隆夫 東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

¥2,200,000 (Direct Cost: ¥2,200,000)

Report

Research Products

[Publications] 酒向慎司,徳田恵一,北村正,近藤重一,益子貴史,小林隆夫: "唇動画像と音声によるマルチモーダルデータベースの構築"日本音響学会2000年秋季研究発表会講演論文集. I. 223-224 (2001)

Related Report

[Publications] S.Sako,K.Tokuda,T.Masuko,T.Kobayashi,T.Kitamura: "HMM-Based text-to-audio-visual speech synthesis"Proc.6th International Conference on Spoken Language Processing, ICSLP 2000. III. 25-28 (2000)

Related Report

[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "HMMに基づいた音声・唇動画像の同時生成-画像ベースアプローチ-"日本音響学会2000年秋季研究発表会講演論文集. I. 235-236 (2000)

Related Report

[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集 情報・システム. 2. 234 (2000)

Related Report

[Publications] M.Tamura,S.Kondo,T.Masuko,T.Kobayashi: "Text-to-audio-visual speech synthesis based on parameter generation from HMM"Proc.6th European Conference on Speech Communication and Technology. EUROSPEECH-99・2. 959-962 (1999)

Related Report

[Publications] 酒向 慎司,徳田 恵一,北村 正,益子 貴史,小林 隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)

Related Report

小林隆夫東京工業大学, 大学院・総合理工学研究科, 教授 (70153616)

[Publications] 酒向慎司,徳田恵一,益子貴史,小林隆夫,北村正: "ピクセルベースアプローチによるHMMに基づいた唇動画像生成"電子情報通信学会2000年総合大会講演論文集情報・システム. 2. 234 (2000)

[Publications] 酒向慎司,徳田恵一,北村正,益子貴史,小林隆夫: "ピクセルベースアプローチによるHMMに基づいた唇動画像の生成"電子情報通信学会技術研究報告 (PRMU). 99・450. 55-60 (1999)