研究概要 |
これまで提案されている情報検索は,検索対象がテキストや画像など単一のメディアを扱っていたため,検索手法も単一のメディアを扱ったものが多かった.しかし,古今の検索対象は,そういった単一なメディアから作られたデータではなく,Web文書やXML文書に見られるように,文字列や画像,映像など複数のメディアを組み合わせたものが多い.したがって,各メディアの検索手法を統合して情報検索を行わなければならない.そこで,本研究では,複数メディアで構成された検索対象を,各メディアの検索手法を用いて評価し,その評価値を統合することで複数メディアによって構成された文書を検索する手法を提案した.本年度は,テキストデータと画像データに注目し,それぞれの評価値を組み合わせるための関数を四つ定義し評価実験を行うことで,テキストと画像の評価に最も優れた関数を定めることができた. また,評価値を統合する手法ではなく,画像をテキストデータで表現する手法として,画像にキーワードを自動付与するシステムの開発を行った.なぜなら,キーワードを用いた情報検索は,検索者にとって行いやすいが,キーワードの特徴量を画像の特徴量へ変換することは非常に難しいからである.そこで,本手法では,あらかじめ数十種類のキーワードが付与された画像を利用して,付与されているキーワードと画像の特徴量との関係をシステムに学習させ,その学習結果をキーワード自動付与に利用する手法を採用した.画像の特徴量の抽出法にスライディングウィンドウ法を利用して実験を行ったところ,あらかじめ付与してあるキーワードが,明確に画像の特徴を反映している場合は,高い精度で関連のあるキーワードを自動的に付与できた.
|