本研究では、視覚と聴覚の情報協調・情報統合による音声認知機構の工学的実現を目的とし、音声と発声時の口唇動画像を用いる「マルチモーダル音声認識」において、複数個のマイク(マイクロフォンアレー)と複数台のカメラ(カメラアレー)を用いた「情報協調」および「情報統合」の研究を行う。音声および画像の入力デバイスとして、16個のマイクロフォンを用いたマイクロフォンアレー、4個のカメラを用いたカメラアレーを作成し、音源推定やビームフォーミング、3次元映像情報などを取得する基本システムを構築している。今後はこれらを用いて、マイクロフォンアレー制御に画像を、カメラアレー制御に音声を補完的に用いる「情報協調」手法の究明を行う予定である。また、本研究においては、従来は試みられることのなかったリアルタイムでのマルチモーダル音声認識を実現させる必要がある。そこで、実時間駆動のマルチモーダル音声認識に適用可能な新たな音声認識デコーダの作成を行った。C++言語でプログラミングすることによってクラス化(モジュール化)を行い、拡張性を高めている。さらに、音声と画像の重み付けを状況に応じてリアルタイムで逐次変更する手法の検証を行った。従来の1マイク1カメラのマルチモーダル音声認識システムを用い、モデルの学習にクリーン環境音声-画像データを、テストデータには高速道路走行中に車載マイク・カメラで収録したデータを使用した。その結果、重み付けを行わない場合と比較して55%、重み付けを行うが逐次更新をしない場合と比較して3.3%、音声認識誤り率を削減し、手法の有効性と必要性を確認した。
|