2001 年度実績報告書

広域分散型情報収集・検索システムにおける負荷分散方式の研究

研究課題

研究課題/領域番号	13780255
研究種目	奨励研究(A)
研究機関	早稲田大学
研究代表者	山名早人早稲田大学, 理工学部, 助教授 (40230502)
キーワード	情報検索 / サーチエンジン / 負荷分散 / 広域分散処理 / WWWロボット / PROXY / Webページ / 更新頻度
研究概要	本研究では、指数関数的に増加を続けるインターネット上の情報を大規模・高速に収集・検索するための広域分散型情報収集・検索システムの負荷分散方式の開発を実施している。平成13年度は、初年度の取り組みとして、高速に収集するためのアルゴリズム開発を実施した。本年度は、Webページの更新頻度を調査することにより、効率的なWebページの収集アルゴリズムを考案した。具体的には、国内の約500Webサーバを対象に、2001年12月の1ヶ月間、Webページの実際の更新頻度を調査した。その結果、95%以上のWebページは全く更新されておらず、サーバ毎にみると、約半数のサーバ上のWebページは全く更新されていないことが判明した。さらに、URLの深さ別にWebページの更新頻度を調べることにより、トップページから1リンク先までのWebページが更新されているかどうかを判定するだけで、全更新Webページの80%以上を判断できることが判明した。つまり、各WWWサーバのトップページとそのリンク先が更新されているかどうかを調べ、更新されていなければ、そのサーバは、更新頻度が極めて少ないWWWサーバと判断できる。これにより、収集対象とするWWWサーバを効率よく絞り込むことが可能となった。さらに、効率的な収集を可能とするために、国内のWebページ総数の推定、WWWサーバの有用性の自動判定の方式についても検討すると共に、17カ所の分散型WWWロボットを用い,日本国内の6500のWebサーバ(465万URL)に対してWebページ収集を行い,データ転送速度計測を実施した. 最終年度である次年度は、平成13年度に取得したデータを用いて、ネットワークレイテンシを考慮した分散収集の仕組みを提案、インプリメントする予定である。

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] 熊谷英樹, 山名早人: "Webページの更新頻度とアクセス頻度に基づく効率的な収集方法の考案"情報処理学会第64回全国大会論文集. Vol.3. 49-50 (2002)
[文献書誌] 西村真幸, 山名早人: "ドメイン毎のWebページ数の偏りを考慮した日本のWebページ数推定調査"情報処理学会第64回全国大会論文集. Vol.3. 23-24 (2002)
[文献書誌] 高見進太郎, 山名早人: "逆リンクのチェックによるサイトの特徴、有用性の調査"情報処理学会第64回全国大会論文集. Vol.3. 29-30 (2002)
[文献書誌] 赤津秀之, 山名早人: "マルコフモデルを使用したWebランキング"情報処理学会第64回全国大会論文集. Vol.3. 35-36 (2002)