研究課題/領域番号 |
17300040
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
メディア情報学・データベース
|
研究機関 | 国立情報学研究所 |
研究代表者 |
佐藤 真一 国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
|
研究分担者 |
HOULE Michael E. 国立情報学研究所, 連携研究部門, 客員教授 (90399270)
片山 紀生 国立情報学研究所, コンテンツ科学研究系, 准教授 (60280559)
孟 洋 国立情報学研究所, コンテンツ科学研究系, 助教 (60312203)
|
研究期間 (年度) |
2005 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
16,750千円 (直接経費: 15,400千円、間接経費: 1,350千円)
2007年度: 5,850千円 (直接経費: 4,500千円、間接経費: 1,350千円)
2006年度: 5,300千円 (直接経費: 5,300千円)
2005年度: 5,600千円 (直接経費: 5,600千円)
|
キーワード | 映像インデクシング / 映像マイニング / 画像認識モデル / クラスタリング / マルチモーダル解析 |
研究概要 |
本研究では、日々大量に提供される放送映像から自動的に画像認識のためのモデルを学習する手法について検討する。これは、映像アーカイブ検索のための映像内容解析や、人間と日常生活の中で対話するロボットのための視覚の実現などのために特に重要である。このような目的のためには、工業用ロボットの視覚のような精密な検出・計測は不要だが、一般の人間が常識として知っているきわめて多種類の物体を見分けたり、今後話題になりそうなまったく新しい物体を見分けるためのモデルが必要となる。本研究では、このような目的に利用可能な画像認識モデルを、放送映像から大量かつ動的に学習する手法の実現を目指す。 本研究では特に、大量のクローズドキャプション(CC)つきの放送映像から画像認識モデルを学習する手法について検討する。まず、映像中の視覚情報をCCなどから得たテキストに記述された散的な意味情報と対応付けるため、視覚情報から列挙可能な離散的なシンボルを抽出する手法を検討した。そのために、映像アーカイブから同一とみなしうるショットやシーンを検出する技術を実現した。また、映像中の顔の重要性に着目し、顔をシンボルとして抽出し、これらを精度よく照合する手法について検討した。次に、こうして得られた視覚的なシンボルとCCから得たノイズの多いテキスト情報との対応関係を効果的に抽出するため、クラスタリングに基づく頑健な対応付け方法について検討を行った。特に対象として顔に特化し、映像から得た顔とCCから得た名前情報とを、クラスタリング手法により効率よく対応付ける方法を実現した。最後に、得られた視覚情報とその意味分類情報(対応付けられたテキスト情報)から、画像認識モデルを学習する方法について検討を行った。まずは正解ラベルつきの映像情報から、未知の映像の意味分類器を学習により自動生成する方法について検討を行った。また、これらの技術をショットレベルの意味分類から、さらに物体レベルの認識へと拡張するために、物体に対応するテキスト情報と対応する物体領域である視覚的な語句を自動抽出する手法について検討を行った。 これらを総合して、映像から画像認識手法を自動学習する方法について、多面的な検討を行った。
|