2001 Fiscal Year Annual Research Report
広域分散型情報収集・検索システムにおける負荷分散方式の研究
Project/Area Number |
13780255
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | Waseda University |
Principal Investigator |
山名 早人 早稲田大学, 理工学部, 助教授 (40230502)
|
Keywords | 情報検索 / サーチエンジン / 負荷分散 / 広域分散処理 / WWWロボット / PROXY / Webページ / 更新頻度 |
Research Abstract |
本研究では、指数関数的に増加を続けるインターネット上の情報を大規模・高速に収集・検索するための広域分散型情報収集・検索システムの負荷分散方式の開発を実施している。平成13年度は、初年度の取り組みとして、高速に収集するためのアルゴリズム開発を実施した。 本年度は、Webページの更新頻度を調査することにより、効率的なWebページの収集アルゴリズムを考案した。具体的には、国内の約500Webサーバを対象に、2001年12月の1ヶ月間、Webページの実際の更新頻度を調査した。その結果、95%以上のWebページは全く更新されておらず、サーバ毎にみると、約半数のサーバ上のWebページは全く更新されていないことが判明した。さらに、URLの深さ別にWebページの更新頻度を調べることにより、トップページから1リンク先までのWebページが更新されているかどうかを判定するだけで、全更新Webページの80%以上を判断できることが判明した。つまり、各WWWサーバのトップページとそのリンク先が更新されているかどうかを調べ、更新されていなければ、そのサーバは、更新頻度が極めて少ないWWWサーバと判断できる。これにより、収集対象とするWWWサーバを効率よく絞り込むことが可能となった。 さらに、効率的な収集を可能とするために、国内のWebページ総数の推定、WWWサーバの有用性の自動判定の方式についても検討すると共に、17カ所の分散型WWWロボットを用い,日本国内の6500のWebサーバ(465万URL)に対してWebページ収集を行い,データ転送速度計測を実施した. 最終年度である次年度は、平成13年度に取得したデータを用いて、ネットワークレイテンシを考慮した分散収集の仕組みを提案、インプリメントする予定である。
|
-
[Publications] 熊谷英樹, 山名早人: "Webページの更新頻度とアクセス頻度に基づく効率的な収集方法の考案"情報処理学会第64回全国大会論文集. Vol.3. 49-50 (2002)
-
[Publications] 西村真幸, 山名早人: "ドメイン毎のWebページ数の偏りを考慮した日本のWebページ数推定調査"情報処理学会第64回全国大会論文集. Vol.3. 23-24 (2002)
-
[Publications] 高見進太郎, 山名早人: "逆リンクのチェックによるサイトの特徴、有用性の調査"情報処理学会第64回全国大会論文集. Vol.3. 29-30 (2002)
-
[Publications] 赤津秀之, 山名早人: "マルコフモデルを使用したWebランキング"情報処理学会第64回全国大会論文集. Vol.3. 35-36 (2002)