本研究では、日々絶え間なく提供されている放送映像から、「国会議事堂」とはどのような建物か、「首相」とはどのような人物か、「切る」とはどのような行為かなど、概念を表すキーワードとその概念を説明するような映像の対(“映像知識"と呼ぶ)を自動的に獲得する手法、及び映像コンテンツ解析への応用について検討を行うことを目的とする。 平成20年度は、平成19年度に引き続き、現在までに収集した放送映像データとともに、導入したサーバコンピュータ、ディスクアレイ装置を活用して、映像情報、及び文字情報の解析を実施し、概念キーワードと画像領域/映像区間を取得する方式、ならびに抽出された各情報を対応付ける方式について検討を行った。 具体的には、ニュース番組などを対象に、映像特徴の解析をとおして、類似した特徴を持つ画像領域/映像区間の候補を取得し、これらを一つの単語(ビジュアルワード)、あるいは単語群とみたてることで、番組内/番組間における映像的な関連構造の抽出を試みた。同時に、文字放送テキストの解析結果とあわせ、各単語の重要性や共起性などを評価し、概念と映像領域/映像区間の対応関係の抽出を試み、映像を説明できる概念と概念を表す映像単位の検討などを行った。また、ビジュアルワードの役割や効果などを検証するため、文字放送テキストとビジュアルワードを用いて、放送番組の連想検索を実現するシステム「番組マップ」を試作した。
|