2006 Fiscal Year Annual Research Report
グラフィカルモデリングを用いた音・映像知識資源の構造化の研究
Project/Area Number |
17300059
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 大学院情報理工学研究科, 助教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
古井 貞熙 東京工業大学, 大学院情報理工学研究科, 教授 (90293076)
|
Keywords | マルチモーダル認識 / 音声認識 / 動画像認識 / 大規模知識資源 / 時系列モデリング |
Research Abstract |
現在、大量の音・映像知識資源が存在するが、多くの場合これらにはインデックス情報(ラベル)が付与されておらず、そのままの形では活用できない。このような大規模な音・映像知識資源を体系化し、利用する技術が強く求められている。このためには統計的パターン認識技術が不可欠であるが、十分な性能をもつ技術はない。また、ある程度の性能を得るためには、教師あり学習のためのラベルの付与が必要であるが、そもそもどのようなラベルを付与すべきなのかが必ずしも明確でなく、また、ラベル付けには多くの労力が必要である。そこで、本研究では、大量データに対する教師なしのラベル付けを様々な形態で行い、ラベル間の確率・統計的依存関係を抽出する、というアプローチをとる。 まず、昨年度に引き続き比較的付与すべきラベルが明確な題材を対象に評価用データベースの充実をはかった。NHK技研と協力し、野球放送を題材として、43試合についてプレイ内容などについて詳細なメタデータ付与を行った。野球放送におけるシーン時系列において、シーン内特徴に対し隠れマルコフモデルを用い、さらに、シーン間コンテキストを統計的言語モデルを用いてモデル化し、評価実験で良好な性能を得た。ラベルの時間軸上の相関が統計的パターン認識において有用な情報であることを確認した。 また、新たに米国NIST主催のTRECVIDワークショップに参加し、シーン境界検出および高次特徴量抽出のタスクについて、研究を行った。後者においては、画像特徴に対し教師なしクラスタリングを行い、それぞれのクラスタを単語と見なしたBag of wordsを入力特徴量とした最大エントロピーモデルを用いて、39種類の高次特徴量の認識を行った。今後、上記の隠れマルコフモデルを用いた方法との融合を行う予定である。
|