研究概要 |
本研究では,典型的な非テキスト情報である静止画像-特に単語で内容説明(アノテーション)が付けられた画像-をテキストで問い合わせるクロスメディア検索を対象とし,問い合わせと画像とを対応付ける検索モデルを開発している.そこでの中心的課題は検索モデル自動構築の際のデータガ疎であることであり,複数メディアの組み合わせによりデータを補完するプロセスを構築することで,このボトルネックの解消を図る. 昨年度に引き続き,検索の対象をこれまでのような単一異言語コレクションと想定するのではなく,複数の言語が混在するようなコレクションに対する検索,すなわちマルチリンガルクロスメディア検索を想定して,検索手法の開発を行った.具体的には以下のとおりである.まず,問い合わせと異なる言語でアノテーションが付加された画像全てを,アノテーションが欠落した画像とみなす.そして,検索対象となる異言語混在画像全てを,画像の視覚的情報のみに基づきクラスタリングする.次に,問い合わせと同一言語でのアノテーションを持つ画像のみを対象にしてテキストに基づいた単言語検索を行う.最後に,既に行った視覚的クラスタリングの結果を元に,異なる言語でアノテーションが付与された画像を,単一言語に基づくランキング結果の中に挿入する.これは,原ランキング上位の画像と同一クラスターに所属する画像を同位置に配置することにより,新たなランキングを作り出すという,再ランキング事後処理である. 本年度は,このテキスト情報の不足を補うために画像情報を,前処理及び後処理において使用して,複数情報源を処理の異なる段階で使用する手法にどのようなトピック依存性(問い合わせの主題により性能が変化する)があるか,また視覚的な特徴量の適切な抽出手法やクラスタリングの閾値について検討した.
|