研究課題/領域番号 |
08875074
|
研究種目 |
萌芽的研究
|
配分区分 | 補助金 |
研究分野 |
情報通信工学
|
研究機関 | 埼玉大学 |
研究代表者 |
長谷川 孝明 埼玉大学, 工学部, 助教授 (00189531)
|
研究期間 (年度) |
1996 – 1997
|
研究課題ステータス |
完了 (1997年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
1997年度: 600千円 (直接経費: 600千円)
1996年度: 1,500千円 (直接経費: 1,500千円)
|
キーワード | CCDカメラマイクロフォン / 画像入力マイクロフォン / IIM / 音声合成 / 輪郭抽出 / 声道断面積関数 / 意志伝達システム / 秘話 / 音声断面積関数 / 意志伝達 |
研究概要 |
通常のマイクロフォンが空気の振動としての音声を入力とし、音声の電気信号を出力とするのに対し、本研究はCCDカメラによる口唇及び舌の動画像情報を入力信号とし、ニュートラルネットやその他の信号処理により音声信号を出力とするものである。これまでに声道の伝達関数を口唇付近の動画像から推定し、適当な励振源で励振し、出力音声信号を合成する方式を提案している。本CCDカメラマイクロフォンは口唇付近の画像による音声認識・合成とは異なり、声道の伝達関数から出力音声信号を合成するため、認識合成系と異なり言語に依存しないという特徴を持つ。 すでに基礎的実験を開始し、母音の合成にはほぼ成功していた。しかしながら、コミュニケーションシステムとして見た場合、子音に対応させることが急務であった。そこで平成8年度は、子音に対応させるための手法を検討した。まず、従来のシステムの子音に対応できない主な理由のうち以下の三点を改善することで有声子音の一部に対応が可能となった。(1)画像フレーム間における口唇特徴量の値の時間的変化を考慮した声道の伝達関数の推定精度の向上(2)子音を特徴づけるための口唇特徴量の追加による推定精度の向上(3)調音結合を考慮した学習データセットの構成による性能向上。 しかしながら、(1)全子音への対応は不十分で、また声道断面積関数の小さな部分の存在する場合は合成音が不安定になることがある。(2)中国語への適用には子音を中心に再検討の必要がある。(3)意思伝達システムとしての性能評価が必要。の三点が問題点として残り、平成9年度はこれらを中心に検討を進めた。(1)については声道断面積関数を介さず,画像の特徴量から直接声道の伝達関数に写像することで非線形変換を処理から減らし、かなりの改善が見られることがわかった。小規模な定量化の実験は終わっているが、大規模な実験は(3)を含め現在進行中である。(2)についても中国語独特の四声についての対応のシステムを構築中である。 以上、性能評価の定量化にはもう少し時間がかかるが、コミュニケーションシステムとしての可能性は示唆された。
|