• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2001 Fiscal Year Annual Research Report

広域分散型情報収集・検索システムにおける負荷分散方式の研究

Research Project

Project/Area Number 13780255
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Research InstitutionWaseda University

Principal Investigator

山名 早人  早稲田大学, 理工学部, 助教授 (40230502)

Keywords情報検索 / サーチエンジン / 負荷分散 / 広域分散処理 / WWWロボット / PROXY / Webページ / 更新頻度
Research Abstract

本研究では、指数関数的に増加を続けるインターネット上の情報を大規模・高速に収集・検索するための広域分散型情報収集・検索システムの負荷分散方式の開発を実施している。平成13年度は、初年度の取り組みとして、高速に収集するためのアルゴリズム開発を実施した。
本年度は、Webページの更新頻度を調査することにより、効率的なWebページの収集アルゴリズムを考案した。具体的には、国内の約500Webサーバを対象に、2001年12月の1ヶ月間、Webページの実際の更新頻度を調査した。その結果、95%以上のWebページは全く更新されておらず、サーバ毎にみると、約半数のサーバ上のWebページは全く更新されていないことが判明した。さらに、URLの深さ別にWebページの更新頻度を調べることにより、トップページから1リンク先までのWebページが更新されているかどうかを判定するだけで、全更新Webページの80%以上を判断できることが判明した。つまり、各WWWサーバのトップページとそのリンク先が更新されているかどうかを調べ、更新されていなければ、そのサーバは、更新頻度が極めて少ないWWWサーバと判断できる。これにより、収集対象とするWWWサーバを効率よく絞り込むことが可能となった。
さらに、効率的な収集を可能とするために、国内のWebページ総数の推定、WWWサーバの有用性の自動判定の方式についても検討すると共に、17カ所の分散型WWWロボットを用い,日本国内の6500のWebサーバ(465万URL)に対してWebページ収集を行い,データ転送速度計測を実施した.
最終年度である次年度は、平成13年度に取得したデータを用いて、ネットワークレイテンシを考慮した分散収集の仕組みを提案、インプリメントする予定である。

  • Research Products

    (4 results)

All Other

All Publications (4 results)

  • [Publications] 熊谷英樹, 山名早人: "Webページの更新頻度とアクセス頻度に基づく効率的な収集方法の考案"情報処理学会第64回全国大会論文集. Vol.3. 49-50 (2002)

  • [Publications] 西村真幸, 山名早人: "ドメイン毎のWebページ数の偏りを考慮した日本のWebページ数推定調査"情報処理学会第64回全国大会論文集. Vol.3. 23-24 (2002)

  • [Publications] 高見進太郎, 山名早人: "逆リンクのチェックによるサイトの特徴、有用性の調査"情報処理学会第64回全国大会論文集. Vol.3. 29-30 (2002)

  • [Publications] 赤津秀之, 山名早人: "マルコフモデルを使用したWebランキング"情報処理学会第64回全国大会論文集. Vol.3. 35-36 (2002)

URL: 

Published: 2003-04-03   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi