• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2001 年度 実績報告書

広域分散型情報収集・検索システムにおける負荷分散方式の研究

研究課題

研究課題/領域番号 13780255
研究種目

奨励研究(A)

研究機関早稲田大学

研究代表者

山名 早人  早稲田大学, 理工学部, 助教授 (40230502)

キーワード情報検索 / サーチエンジン / 負荷分散 / 広域分散処理 / WWWロボット / PROXY / Webページ / 更新頻度
研究概要

本研究では、指数関数的に増加を続けるインターネット上の情報を大規模・高速に収集・検索するための広域分散型情報収集・検索システムの負荷分散方式の開発を実施している。平成13年度は、初年度の取り組みとして、高速に収集するためのアルゴリズム開発を実施した。
本年度は、Webページの更新頻度を調査することにより、効率的なWebページの収集アルゴリズムを考案した。具体的には、国内の約500Webサーバを対象に、2001年12月の1ヶ月間、Webページの実際の更新頻度を調査した。その結果、95%以上のWebページは全く更新されておらず、サーバ毎にみると、約半数のサーバ上のWebページは全く更新されていないことが判明した。さらに、URLの深さ別にWebページの更新頻度を調べることにより、トップページから1リンク先までのWebページが更新されているかどうかを判定するだけで、全更新Webページの80%以上を判断できることが判明した。つまり、各WWWサーバのトップページとそのリンク先が更新されているかどうかを調べ、更新されていなければ、そのサーバは、更新頻度が極めて少ないWWWサーバと判断できる。これにより、収集対象とするWWWサーバを効率よく絞り込むことが可能となった。
さらに、効率的な収集を可能とするために、国内のWebページ総数の推定、WWWサーバの有用性の自動判定の方式についても検討すると共に、17カ所の分散型WWWロボットを用い,日本国内の6500のWebサーバ(465万URL)に対してWebページ収集を行い,データ転送速度計測を実施した.
最終年度である次年度は、平成13年度に取得したデータを用いて、ネットワークレイテンシを考慮した分散収集の仕組みを提案、インプリメントする予定である。

  • 研究成果

    (4件)

すべて その他

すべて 文献書誌 (4件)

  • [文献書誌] 熊谷英樹, 山名早人: "Webページの更新頻度とアクセス頻度に基づく効率的な収集方法の考案"情報処理学会第64回全国大会論文集. Vol.3. 49-50 (2002)

  • [文献書誌] 西村真幸, 山名早人: "ドメイン毎のWebページ数の偏りを考慮した日本のWebページ数推定調査"情報処理学会第64回全国大会論文集. Vol.3. 23-24 (2002)

  • [文献書誌] 高見進太郎, 山名早人: "逆リンクのチェックによるサイトの特徴、有用性の調査"情報処理学会第64回全国大会論文集. Vol.3. 29-30 (2002)

  • [文献書誌] 赤津秀之, 山名早人: "マルコフモデルを使用したWebランキング"情報処理学会第64回全国大会論文集. Vol.3. 35-36 (2002)

URL: 

公開日: 2003-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi