研究課題
前年度までの研究により,動詞タグが映像中のどの時間区間(シーン)に対応しているかが既知の場合(タグ・シーン対応の不完全性が存在しない場合)には,そのタグにより表現される動詞的概念を視覚モデル化することがある程度可能となった.これを踏まえ,今年度は,同一の動詞タグが付与されている映像群から,そのタグに対応するシーンのみを抽出する手法を検討した.これにより抽出されたシーンを対象として前年度までの研究成果を適用することにより,本研究課題の最終目的が達成される.当初の計画では,映像中の各シーンを名詞的概念の集合により表現し,任意のシーンペア間でその類似度を算出することにより,互いに類似したシーンのクラスタを抽出する方法を考えていた.しかし,事前調査の結果,シーン間の意味的な類似度は,前景(動詞タグにより表現される動作の動作主体とそれに伴って運動する道具等の物体に相当する領域)が支配的要因となるケースと,背景(動作主体と道具以外の領域)が支配的要因となるケースに分かれることが分かった.そこで,入力映像を前景と背景に分割し,前景からは動きを表現する特徴量を抽出する一方,背景は当初の計画通り名詞的概念の集合により表現し,両者を統合的に用いる手法を提案した.これにより,動きの特徴量や名詞的概念の集合を単独で用いる場合よりも高い精度で,同一の動詞タグに相当するシーンを抽出することが可能となることを実験により示した.また,前景と背景の統合を適応的に実現する手法も併せて考案した.本研究の成果は,電子情報通信学会 パターン認識・メディア理解研究会にて報告した.
すべて 2017 2016
すべて 雑誌論文 (1件) (うち査読あり 1件、 謝辞記載あり 1件) 学会発表 (4件)
MultiMedia Modeling, MMM 2017, Lecture Notes in Computer Science
巻: 10133 ページ: 173-184
10.1007/978-3-319-5184-5_15