研究課題/領域番号 |
17300059
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知覚情報処理・知能ロボティクス
|
研究機関 | 東京工業大学 |
研究代表者 |
篠田 浩一 東京工業大学, 大学院・情報理工学研究科, 准教授 (10343097)
|
研究分担者 |
古井 貞煕 (古井 貞熙) 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
研究期間 (年度) |
2005 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
14,780千円 (直接経費: 13,700千円、間接経費: 1,080千円)
2007年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2006年度: 4,300千円 (直接経費: 4,300千円)
2005年度: 5,800千円 (直接経費: 5,800千円)
|
キーワード | マルチモーダル認識 / 音声認識 / 動画像認識 / 大規模知識資源 / 系列モデリング / 時系列モデリング / グラフィカルモデリング / マルチメディアコンテンツ / CBVIR / 知識の体系化 / セマンティクス |
研究概要 |
現在、大量の音・映像知識資源が存在するが、多くの場合これらにはインデックス情報(ラベル)が付与されておらず、そのままの形では活用できない。このような大規模な音・映像知識資源を体系化し、利用する技術が強く求められている。このためには統計的パターン認識技術が不可欠であるが、十分な性能をもつ技術はない。また、ある程度の性能を得るためには、教師あり学習のためのラベルの付与が必要であるが、そもそもどのようなラベルを付与すべきなのかが必ずしも明確でなく、また、ラベル付けには多くの労力が必要である。そこで、本研究では、大量データに対する教師なしのラベル付けを様々な形態で行い、ラベル間の確率・統計的依存関係を抽出する、というアプローチをとった。まず、NHK技研との協力で昨年度に完成した野球放送43試合のメタデータ付きデータベースを評価データとして用い、野球放送のシーン認識を行った。シーンコンテキストなどラベル間の相関を積極的に用い、また、音情報・映像情報の統合を行うことで、60%の認識性能を得た。また、応用として、得点シーンの検出の研究を行い、得点シーンの90%を得ることに成功した。放送局のハイライト作成支援システムとしての実用化が期待できる。また米国NIST主催のTRECVIDワークショップに引き続き参加し、高次特徴量抽出のタスクについて、研究を行った。画像特徴に対し教師なしクラスタリングを行い、画像特徴を木構造化した辞書を作成し、そのノードを単語と見なしたBag of wordsアプローチを用いることにより、データ量の大小に対し頑健な特徴量選択を可能とした。また、動画における動き特徴についてもmotion wordを用いてモデル化した。39種類の高次特徴に対し、顕著な性能改善を得た。この他にもグラフィカルモデルを用いた耐雑音音声認識、非同期入力に対応したマルチモーダルインタフェースなどの研究を行った。
|