研究課題
本研究は、職場・家庭などの小規模コミュニティにおけるヒューマンコミュニケーションから有用な情報を自動抽出することを目的とし、言語モード及び非言語モードからなるマルチモーダル情報の認識・検索を高精度で行うシステムを開発することを目的としている。最終年度である今年度は、構築したデータベースを用いて、今まで開発してきた各要素技術の高度化をはかり、あわせてその統合作業を行った。まず、言語モードの研究では、引き続き音声認識技術の高性能化を行った。能動的な文選択手法を用いた音響モデル学習の効果を確認した。また、昨年度の雑音下音声の解析結果をもとにスペクトル空間の縮小率を利用した新たな耐雑音手法を開発した。非言語モードのうち音声に関しては、印象評定クラスタリング結果を利用した音響モデルの構築手法を開発し効果を確認した。また、昨年度より継続していた、歩行速度変化に対し頑健な歩容(Gait)認識、パーティクルフィルタを用いた人間の動作識別、手話を対象としたジェスチャー認識の評価を行い、その効果を確認した。収録データベースを用いた研究では、マルチチャネル音声検出手法の効果を確認し、また、話者を同定するために新たに話者認識の研究を行い、その効果を確認した。言語モードと非言語モードを統合した映像からの情報自動抽出手法について引き続き高性能化を行った。米国TRECVIDワークショップで世界50チーム中4位(日本では1位)の成果を得た。
すべて 2011 2010
すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (20件)
電子情報通信学会論文誌D
巻: Vol.J93-D, No.6 ページ: 1009-1023
IEICE Transactions on Information and Systems
巻: Vol.E93-D, No.9 ページ: 2648-2362
電子情報通信学会論文誌
巻: Vol.J93-D, No.12 ページ: 2633-2644
Speech communication
巻: Vol.53 ページ: 283-291