1996 Fiscal Year Annual Research Report
Project/Area Number |
08875074
|
Research Institution | Saitama University |
Principal Investigator |
長谷川 孝明 埼玉大学, 工学部, 助教授 (00189531)
|
Keywords | CCDカメラマイクロフォン / 画像入力マイクロフォン / IIM / 音声合成 / 輪郭抽出 / 音声断面積関数 / 意志伝達 / 秘話 |
Research Abstract |
通常のマイクロフォンが空気の振動としての音声を入力とし、音声の電気信号を出力とするのに対し、本研究はCCDカメラによる口唇及び舌の動画像情報を入力信号とし、ニューラルネットやその他の信号処理により音声信号を出力とするものである。これまでに声道の伝達関数を口唇付近の動画像から推定し、適当な励振源で励振し、出力音声信号を合成する方式を提案している。本CCDカメラマイクロフォンは口唇付近の画像による音声認識・合成とは異なり、声道の伝達関数から出力音声信号を合成するため、言語に依存しないという特長を持つ。 すでに基礎的実験を開始し、母音の合成にはほぼ成功していた。しかしながら、コミュニケーションシステムとして見た場合、子音に対応させることが急務であった。そこで本年度は、子音に対応させるための手法を検討した。まず、従来のシステムの子音に対応できない主な理由のうち次の2点に着目しその改善策を検討した。すなわち、母音が定常的なのに対し、子音は動きが速く過渡的であること、また種類も多岐にわたるためその全てを静確に推測することが難しいという点である。そこで、次の改善を行った。 (1)予測輪郭を用いた輪郭追従性能の向上 (2)画像フレーム間における口唇特徴量の値の時間的変化を考慮した声道の伝達関数の推定精度の向上 (3)子音を特徴づけるための口唇特徴量の追加による推定精度の向上。 (4)調音結合を考慮した学習データセットの構成による性能向上。 以上の改善を行ったシステムと従来のシステムの性能比較を子音を交えた単語(地名)の聴取実験により行った。その結果従来のシステムでは35%しか開き取れなかった地名が67%の認識率に向上した。これによりコミュニケーションシステムとしての可能性が示唆された。さらに実際のコミュニケーションシステムとしての応用に向けて研究中である。
|
Research Products
(1 results)