2007 Fiscal Year Annual Research Report
音声・画像のマルチモーダル情報協調・情報統合を用いた音声認識の高度化
Project/Area Number |
18700175
|
Research Institution | Gifu University |
Principal Investigator |
田村 哲嗣 Gifu University, 工学部, 助教 (10402215)
|
Keywords | 音声認識 / マルチモーダル / マイクロフォンアレー / カメラアレー / 情報協調 / 情報統合 |
Research Abstract |
本研究では,視覚と聴覚の情報協調・情報統合による音声認知機構の工学的実現を目的とし,音声と発声時の口唇動画像を用いる「マルチモーダル音声認識」において,複数個のマイク(マイクロフォンアレー)と複数台のカメラ(カメラアレー)を用いた「情報協調」および「情報統合」の研究を行っている。 「情報協調」では,マイクロフォンアレーから得られた情報をカメラアレーの制御に,同様にしてカメラの情報をマイクロフォンの制御に,相互・相補的に用いることで,それぞれの情報の精度向上を目指している。後述する情報統合の検討を先行させたため,現在は,情報協調を行うアルゴリズムの構築・実装を行っている。「情報統合」においては,マイクロフォンアレー出力音声を用いた音声認識結果と,カメラアレーによる話者の口唇映像を用いた「読唇」結果を統合する。この基礎的研究として,それぞれの認識結果(単語グラフ出力)をコンフユージョンネットワークに変換し,これを統合する手法の検討を行った。1カメラ1マイクによるデータを用いて認識性能を評価したところ,雑音下において一定の音声認識性能の改善がみられ,その有効性が確認された。一方,このコンフュージョンネットワーク統合手法を効果的に適用するには,単語グラフを改良する必要があり,これには音声認識デコーダの拡張を要する。そこで,昨年度から続いて構築・改良を行っている新しい音声認識デコーダに,コンフユージョンネットワークのための機構を取り入れ,情報統合手法のさらなる向上を図っていく予定である。
|