大容量ネットワークの普及、音楽・映像配信の一般化などにより、膨大な量のメティア情報を取得し保存する時代となっている。それに伴い、所望のメディア情報を高速かつ正確に探し出す技術の開発が各方面で進められており、検索性能は日々進化を遂げている。一方で、それらメディア情報検索技術の性能限界について、現実的な仮定の下で検討されている研究は少ない。本研究は、上記背景を踏まえ、以下の3項目について、理論と実装の両面から詳細に検討を進めることを目的とする。 (1) 情報検索を情報源符号化の観点からモデル化・定式化する。 (2) 上記モデル・定式化に基づいて情報検索性能の理論的限界を解明する。 (3) 上記理論限界に到達する情報検索アルゴリズムを構築する。 平成21年度は、実証的解析への足がかりとなる基盤整備に関する下記の成果を挙げた。 1. 情報検索の理論限界に漸近する符号化方法の汎用的な作成方法の提案: 情報検索における重要な基本技術であるインデックスを用いた検索(インデックス検索)は、情報源符号化の枠組でモデル化することにより、ある構造を持つ多端子情報源符号化問題として記述できる。そのモデルを含む広いクラスの多端子情報源符号化問題について、情報源に関する統計的性質が未知であっても、それが既知であるという条件の下で設計された具体的な符号化方法から、理論限界に漸近する符号化法方を作成できる手法を開発した。これにより、インデックス検索アルゴリズムとして、これまでに用いられてきたあらゆるタイプの情報源符号を用いることが可能になることが示された。
|