1996 Fiscal Year Annual Research Report
Project/Area Number |
08873006
|
Research Institution | Kanto Gakuen University |
Principal Investigator |
小川 浩 関東学園大学, 経済学部, 助教授 (00245135)
|
Keywords | インターネット / 求人情報 / WWW / WWW探索ロボット |
Research Abstract |
本年度の研究実施計画に従い、広さ優先探索アルゴリズムを用いたWeb探索ロボットを国内CO.JPおよびOR.JPドメインに対して11月から2月まで運用した結果、約30万ページのデータを収集することができたが、その過程で以下のような問題点が明らかになった。 1.Web page数の予想を越えた増加 計画作成時には、予備調査から30万ページ程度と予想していたWeb page数であるが、本調査の結果この予想は過少であることが判明した。このことは、探索ロボットによる無作為な収集によって得られるWeb pageの部分集合を十分に大きくすることが困難であることを意味する。本調査で得た30万ページは予備調査での予想では国内全ページ数と予想されていた数値であるが、実際には全数よりかなり少ないことが判明した。 2.有効データ比率が予想以上に低い 上記30万ページのうち、有効な求人情報(具体的な募集条件まで掲載されているもの)の件数は数百であり、情報収集の方法として全ページを収集するという方法は効率的ではないことが判明した。 これらの問題点は、全ページを収集するのが現実的ではない。というところまでWeb spaceが拡大していたことに起因しており、特定の情報に関する探索を目的とした場合には例えばロボットを利用するにしても無作為全数探索はすでに現実的ではない。今後は、この結果をもとによりヒューリスティックな実装を行った探索エージェントによる情報収集を計画している。
|