研究課題/領域番号 |
14780242
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
計算機科学
|
研究機関 | 東洋大学 |
研究代表者 |
上原 稔 東洋大学, 工学部, 助教授 (70256775)
|
研究期間 (年度) |
2002 – 2004
|
研究課題ステータス |
完了 (2004年度)
|
配分額 *注記 |
2,900千円 (直接経費: 2,900千円)
2004年度: 900千円 (直接経費: 900千円)
2003年度: 800千円 (直接経費: 800千円)
2002年度: 1,200千円 (直接経費: 1,200千円)
|
キーワード | 情報検索 / サーチエンジン / 分散処理 |
研究概要 |
企業活動にITが使われる今日、Webページ検索はインターネットのみならずイントラネットでも重要な技術である。ビジネスでは特に新鮮な情報が必要とされている。しかし、既存の集中型サーチエンジンでは、文書収集に時間がかかり、十分に新鮮な情報を検索することが困難である。そこで、我々は分散型サーチエンジンを用いてこの間題を解決した。分散型サーチエンジンでは、文書を収集することなく各サイトでインデックスを作成する0このため、新鮮な情報の検索が可能となる。 しかし、分散型サーチエンジンは検索時に通信遅延が生じるため、規模を拡大することが困難であった。しかし、我々は、キャッシュを効率的に用いるいくつかの技法を開発した。「次の10件」検索では、先読みを行い、さらに上位10件を予測することで通信対象を選択する。この技法はANDおよびAND-NOTを含むクエリでは正しく予測することができない。この問題を、既検索クエリを投機的に再検索することで正しく予測する。この技法を永続的キャッシュと名づける。はじめて旨のクエリは、クエリの論理式に基づいてサイトを選択する。この技法をクエリに基づくサイト選択と名づける。これらの結果、規模にかぎらず一定の応答時間を実現した。また、システムの単一故障点となるメタサーバを多重化することで、システムの信頼性を著しく向上させることができた。 さらに、文書内容と鮮度の両方をランキングに反映したFTF・IDFスコアリング手法を提唱し、評価を行った。FTF・IDFは静的Word Spammingにも強い。 本研究に関して、平成16年度には、論文誌1件、国際会議5件、国内研究会ならびに学会発表1件の発表がなされた。
|