本研究は、音声と画像を用いるマルチモーダル音声認識(AVSR)において、特徴量抽出、モデル化、それらの統合法などの要素技術を、環境やタスクに応じて最適化する「構成最適化法」の確立を目指している。この取り組みを通じ、最終的に、AVSRの実用化を目標としている。 本年度は、第一に、複数の元情報を組み合わせ深層学習を適用して得られる画像特徴量(DBVF)および音響特徴量(DBAF)に対する検討を行った。まず、新たな画像情報を用いることによる性能改善を確認した。さらに、マルチモーダル音声認識での深層学習の利用法について詳細な検討を行った。加えて、これら特徴量とAVSRのためのモデル適応を併用することで、雑音下で頑健な認識スキームを実現した。第二に、AVSRの認識モデルにおいて、従来の重み付け最適化法を一般化し、重みを一意に決定することなく、音声と画像の認識モデルの出力を統合するアルゴリズムを開発した。実験により、環境に応じて適切にモデル出力を統合し、高い認識精度を実現できることを確認した。第三に、実環境での適用を念頭に、新たにDBAF・DBVFとサポートベクターマシンによる音声区間検出手法を開発した。従来法と比較したところ、良好な結果を得た。第四に、画像から得られる深度情報の活用を検討した。前述の深層学習を利用しつつ、音声と深度、画像と深度の組み合わせを実験し、認識精度の向上を確認した。この他、深層学習による音響特徴量(DBAF)とDBVFに正準相関分析を適用することで、環境適応につながる大変興味深い結果を得た。また前年度に続き、中語彙・大語彙AVSRに向けたデータ収集と、発話中の話者の顔検出の研究を行った。 以上の成果について、国際会議を中心に発表を行い、雑誌論文へ投稿した。
|