研究課題
本研究は、職場・家庭などの小規模コミュニティにおけるヒューマンコミュニケーションから有用な情報を自動抽出することを目的とし、言語モード及び非言語モードからなるマルチモーダル情報の認識・検索を高精度で行うシステムを開発することを目的としている。2年目である今年度は、昨年度収録した評価データベースを用いた予備評価を行い、それを踏まえてさらにデータ収録・アノテーション作業を行った。そして、引き続き要素技術の開発を試みるとともにその統合作業を開始した。まず、言語モードの研究では、引き続き音声認識技術の高性能化を行った。複数の認識器を用いた能動学習による音響モデル学習手法を開発した。また前年度開発した能動的な文選択手法の音響モデル学習への応用を開始した。非言語モードのうち音声に関しては、前年度の印象評定クラスタリングの研究で得られた知見をもとに、それを利用した音響モデルの構築手法を提案した。また、引き続き歩容(Gait)認識の性能向上を図るとともに、パーティクルフィルタを用いた人間の動作識別の評価を開始した。また、手話を対象としたジェスチャー認識の研究を開始した。さらに、言語モードと非言語モードを統合した、動画像からのイベント検出手法の検討を開始した。昨年度収録したデータベースのアノテーションを行い、それをもとにマルチチャネル音声検出手法の検討を開始した。また、周囲雑音による音声品質の劣化があることが判明したため雑音下音声の解析を開始した。
すべて 2010 2009
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (11件)
2009 The Acoustical Society of Japan, Accoust.Sci.& Tech.
巻: No.30 ページ: 249-256