2010 Fiscal Year Annual Research Report
ヒューマンコミュニケーション検索・要約のためのマルチモーダル認識の研究
Project/Area Number |
20300063
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 准教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
Keywords | マルチモーダル認識 / ヒューマンコミュニケーション / 対話マイニング |
Research Abstract |
本研究は、職場・家庭などの小規模コミュニティにおけるヒューマンコミュニケーションから有用な情報を自動抽出することを目的とし、言語モード及び非言語モードからなるマルチモーダル情報の認識・検索を高精度で行うシステムを開発することを目的としている。最終年度である今年度は、構築したデータベースを用いて、今まで開発してきた各要素技術の高度化をはかり、あわせてその統合作業を行った。まず、言語モードの研究では、引き続き音声認識技術の高性能化を行った。能動的な文選択手法を用いた音響モデル学習の効果を確認した。また、昨年度の雑音下音声の解析結果をもとにスペクトル空間の縮小率を利用した新たな耐雑音手法を開発した。非言語モードのうち音声に関しては、印象評定クラスタリング結果を利用した音響モデルの構築手法を開発し効果を確認した。また、昨年度より継続していた、歩行速度変化に対し頑健な歩容(Gait)認識、パーティクルフィルタを用いた人間の動作識別、手話を対象としたジェスチャー認識の評価を行い、その効果を確認した。収録データベースを用いた研究では、マルチチャネル音声検出手法の効果を確認し、また、話者を同定するために新たに話者認識の研究を行い、その効果を確認した。言語モードと非言語モードを統合した映像からの情報自動抽出手法について引き続き高性能化を行った。米国TRECVIDワークショップで世界50チーム中4位(日本では1位)の成果を得た。
|
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] TT+GT at TRECVID 2010 Workshop2010
Author(s)
Nakamasa Inoue, Toshiya Wada, Yusuke Kamishima, Koichi Shinoda, Ilseo Kim, Byungki Byun, Chin-Hui Lee
Organizer
TRECVID 2010 workshop
Place of Presentation
Gaithersburg
Year and Date
2010-11-15
-
-
-
-
-
-
-
-
-
-