平成14年度の研究においては、平成13年度の成果を踏まえた上で、ネットワークの混雑状況を考慮した分散収集の仕組みを提案するため、当該WWWサーバに至る経路が複数ある場合の経路の選択手法について研究を実施した。 具体的には、パケットのトランスポート層の各種情報を分析する事で、複数のネットワーク経路が存在する場合に最適な経路を発見することが可能かどうかを検証した。まず、パケット内のトランスポート層の情報であるTCPヘッダの内容を分析し、複数のネットワークの中から、どのネットワークを使えば効率的にデータ転送を行う事ができるのか示すことができるパラメータを発見することを目指した。 最初に、転送率とTCPの様々なパラメータ(平均ウィンドウサイズ、最大ウィンドウサイズ、RTT)の関連性について解析した。解析の結果、1KB以上の転送量を持つコネクションよりは1KB未満の転送量を持つコネクションのほうが、ウィンドウサイズと転送率の関係を得やすいということがわかった。さらに、長い転送時間のコネクション(実験では1秒以上)よりは短い転送時間(同1秒未満)のコネクションからの方が、ウィンドウサイズと転送率の関係を得やすいことがわかった。 これらの結果は、小さい転送量、もしくは短い転送時間のコネクションでは、安定してパケットの送信が行われているためだと考えられる。大きい転送量、もしくは長い転送時間のコネクションは、送信の途中で何らかの問題点を持っている可能性があるため、最適経路を選択する上でのパラメータとしては用いない方がよいことが分かった。 以上の結果を踏まえ、Webページ収集時に当該WWWサーバまで複数の経路が存在する場合に、経路を選択するための一手法を提案した。 さらに、昨年度からの継続として、Webページの更新間隔をWebページを収集することなく発見するためのアルゴリズム開発を行った。
|