2002 年度実績報告書

新鮮な情報検索のためのスケーラブルな分散型サーチエンジン

研究課題

研究課題/領域番号	14780242
研究機関	東洋大学
研究代表者	上原稔東洋大学, 工学部, 助教授 (70256775)
キーワード	情報検索 / サーチエンジン / 分散処理
研究概要	企業活動にITが使われる今日、Webページ検索はインターネットのみならずイントラネットでも重要な技術である。ビジネスでは特に新鮮な情報が必要とされている。しかし、既存の集中型サーチエンジンでは、文書収集に時間がかかり、十分に新鮮な情報を検索することが困難である。そこで、我々は分散型サーチエンジンを用いてこの問題を解決した。分散型サーチエンジンでは、文書を収集することなく各サイトでインデックスを作成する。このため、新鮮な情報の検索が可能となる。しかし、分散型サーチエンジンは検索時に通信遅延が生じるため、規模を拡大することが困難であった。しかし、我々は、キャッシュを効率的に用いるいくつかの技法を開発した。「次の10件」検索では、先読みを行い、さらに上位10件を予測することで通信対象を選択する。この技法をスコアに基づくサイト選択(Score based Site Selection, SbSS)と名づける。SbSSはANDおよびAND-NOTを含むクエリでは正しく予測することができない。この問題を既検索クエリを投機的に再検索することで正しく予測する。この技法を永続的キャッシュと名づける。はじめてのクエリは、クエリの論理式に基づいてサイトを選択する。この技法をクエリに基づくサイト選択と名づける。これらの結果、規模にかぎらず一定の応答時間を実現した。また、本題ではないが、システムの単一故障点となるメタサーバを多重化することで、システムの信頼性を著しく向上させることができた。本研究に関して、本年度、国際会議8件、国内研究会ならびに学会発表7件の発表がなされた。今後は、SPAMに強く分散型サーチエンジンに適したスコアリングと新鮮な情報検索について研究する予定である。