YouTube等の映像共有サービスに投稿されるタグ付き映像を利用して動詞的概念(動詞により表される概念)の視覚モデルを構築する技術について検討した.一般に,映像に付与されているタグが映像中のどのシーン(区間)を表現したものであるかは自明ではない.そこで本研究では,同一のタグが付与された複数の映像群に共通して現れる区間(共通区間)を当該タグに対応する区間として抽出する手法,および抽出した区間を利用して当該タグが表す概念の視覚モデルを構築する手法を開発した.また,共通区間の抽出に際しては,区間同士の類似度を定める必要があるが,これをタグ付き画像の集合に基づいて定量化する手法も併せて開発した.
|