2009 Fiscal Year Annual Research Report
ヒューマンコミュニケーション検索・要約のためのマルチモーダル認識の研究
Project/Area Number |
20300063
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 准教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
古井 貞煕 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
Keywords | マルチモーダル認識 / ヒューマンコミュニケーション / 対話マイニング |
Research Abstract |
本研究は、職場・家庭などの小規模コミュニティにおけるヒューマンコミュニケーションから有用な情報を自動抽出することを目的とし、言語モード及び非言語モードからなるマルチモーダル情報の認識・検索を高精度で行うシステムを開発することを目的としている。2年目である今年度は、昨年度収録した評価データベースを用いた予備評価を行い、それを踏まえてさらにデータ収録・アノテーション作業を行った。そして、引き続き要素技術の開発を試みるとともにその統合作業を開始した。まず、言語モードの研究では、引き続き音声認識技術の高性能化を行った。複数の認識器を用いた能動学習による音響モデル学習手法を開発した。また前年度開発した能動的な文選択手法の音響モデル学習への応用を開始した。非言語モードのうち音声に関しては、前年度の印象評定クラスタリングの研究で得られた知見をもとに、それを利用した音響モデルの構築手法を提案した。また、引き続き歩容(Gait)認識の性能向上を図るとともに、パーティクルフィルタを用いた人間の動作識別の評価を開始した。また、手話を対象としたジェスチャー認識の研究を開始した。さらに、言語モードと非言語モードを統合した、動画像からのイベント検出手法の検討を開始した。昨年度収録したデータベースのアノテーションを行い、それをもとにマルチチャネル音声検出手法の検討を開始した。また、周囲雑音による音声品質の劣化があることが判明したため雑音下音声の解析を開始した。
|
-
-
-
-
-
-
[Presentation] TITGT at TRECVID 2009 Workshop2009
Author(s)
Nakamasa Inoue, Shanshan Hao, Tatsuhiko Saito, Koichi Shinoda, Ilseo Kim, Chin-Hui Leei
Organizer
TRECVID Workshop (TRECVID 2009)
Place of Presentation
Gaithersburg
Year and Date
2009-11-16
-
-
-
-
-
-