研究概要 |
本研究では,Internetの中のWebのページを全て探し出して,これをページのタイトルに含まれる語を指定することによって,検索するサーチエンジンを実装(千里眼)して,サービスに提供することができた. 千里眼は,日本国内(jpドメイン)の全てのWebのページを,リンクを辿って探索する.これに要する時間は約1週間程度である.現在,千里眼には日に約1万件以上のアクセスがある. 千里眼を使って,日本の中のWebのページの数を調べると,現在約10万ページを超えており,半年で2倍になる勢いで増加する傾向にある.さらに,リンクが他から張られている数が最も多いのは,www.asahi.com(朝日新聞)のページである.また,検索要求に使われるキーワードの頻度についてもデータを集めて,Webページの利用傾向の調査に資することができた. 日本国内を検索する時間をさらに小さくするために,サーチエンジンの分散化も実現した.国内に複数のサーチエンジンを設けて,それぞれのサーチエンジンから各Webページに対するアクセス時間をサーチエンジンからの距離として,この距離によってサーチエンジンが担当するWebページを分割した.これにより,約10台のサーチエンジンで国内の検索を1日で終える見通しがえられた. 現在,この分散サーチエンジンを実装して試験中であり,4月にサービスを開始する予定である.
|