研究概要 |
通常のマイクロフォンが音声入力,音声信号出力であるのに対し,本研究ではCCDカメラによる口唇および舌の画像情報入力,音声信号出力のマイクロフォンシステムの構築に目的があった.本システムは,大きな環境雑音下の音声も画像入力という本質的に異なった媒体により大雑音の分離が可能となるほか,実際の発声をしなくても音声信号が送れるという本質的な秘話機能や声帯に障害を持つ人の発声代替機能も持つ.昨年度までに本報告者が考案した2種のアナログ型構成法,すなわち,(1)直接法(口唇および舌の画像情報をニューラルネットを介し直接音声スペクトルに写像する方法)と(2)伝達関数法(口及び舌の画像情報から声道の伝達関数を求め適当な音源と伝達関数から音声の合成を行う方法)の中でも,後者を中心に基礎システムの構築と実験を行った。 これまでに得た結果をまとめる.まず,動画像から音声への変換を日本語5母音を基にシステムを構成した.具体的には伝達関数と対応する声道断面積関数を通し,画像情報からの音声信号化システムを構成した.本システムは日本語5母音を音に構成したシステムであるが,英語の3母音も合成可能であり,また,繰り返しの聴取テストの結果聴取率の向上から発声不能者の発声代替システムとしての可能性も示してきたが,子音への対応ががほとんどできていなかった.本年度は子音への適用に的を絞り検討を行った.特に子音の内,有声破裂音についての検討を行った. まず,子音の速い動きに対応するために動画像からの口唇輪郭抽出法の改善を行い,大幅な動き追従特性の向上を得た.次に,従来1フレームの口唇特徴量を同じ1フレームの声道断面積に重回帰分析によって対応づけていた方法を,2フレームの口唇特徴量を1フレームの声道断面積にニューラルネットによって写像する方法に改善することにより声道断面積関数の推定精度の大幅な向上を得た.その後に,子音の聴取テストを行った.その結果従来システムではほとんど不可能だった子音の聴取効率が大幅に向上した. 今後,他の子音処理の改善の後にCCDカメラマイクロフォンの実現の可能性が十分あることが分かった.
|