研究概要 |
本研究では、指数関数的に増加を続けるインターネット上の情報を大規模・高速に収集・検索するための広域分散型情報収集・検索システムの負荷分散方式の開発を実施している。平成13年度は、初年度の取り組みとして、高速に収集するためのアルゴリズム開発を実施した。 本年度は、Webページの更新頻度を調査することにより、効率的なWebページの収集アルゴリズムを考案した。具体的には、国内の約500Webサーバを対象に、2001年12月の1ヶ月間、Webページの実際の更新頻度を調査した。その結果、95%以上のWebページは全く更新されておらず、サーバ毎にみると、約半数のサーバ上のWebページは全く更新されていないことが判明した。さらに、URLの深さ別にWebページの更新頻度を調べることにより、トップページから1リンク先までのWebページが更新されているかどうかを判定するだけで、全更新Webページの80%以上を判断できることが判明した。つまり、各WWWサーバのトップページとそのリンク先が更新されているかどうかを調べ、更新されていなければ、そのサーバは、更新頻度が極めて少ないWWWサーバと判断できる。これにより、収集対象とするWWWサーバを効率よく絞り込むことが可能となった。 さらに、効率的な収集を可能とするために、国内のWebページ総数の推定、WWWサーバの有用性の自動判定の方式についても検討すると共に、17カ所の分散型WWWロボットを用い,日本国内の6500のWebサーバ(465万URL)に対してWebページ収集を行い,データ転送速度計測を実施した. 最終年度である次年度は、平成13年度に取得したデータを用いて、ネットワークレイテンシを考慮した分散収集の仕組みを提案、インプリメントする予定である。
|