研究概要 |
現在,Webページは質・量ともに急激な伸展をとげ,一般生活のみならず企業での意思決定行動や研究活動にとっても,欠くことができない情報源となっている。しかし,一方でWebページの約三分の一が1年以内に消失する,また多くのページは更新がなされるなど,その継続性が情報源としての問題点であると言われている。しかし,従来の研究は,研究時点で利用可能なWebページの分析がほとんどであり,消失したページや更新されたページの分析はほとんど行われてこなかった。このような消失したページの分析はWebページの利用に関してだけではなくWebページの作成という観点からも有効であると考えられる。 本研究では,昨年度までに収集したWebページのうちで現在は消失してしまったWebページを対象とした分析を行い,その特徴と消失したWebページと同内容のWebページの存在する可能性,さらに同内容のWebページを見つけるためのアルゴリズムについて検討した。 消失した500のWebページを対象とした調査の結果,消失ページのうち42%のページについて消失したページと同じかあるいは継続した内容であるページが残っていることが明らかとなった。これらの同内容のページが残っているものを対象として,1)URLの階層構造を利用したトラッキング,2)Webページ消失前になされた移転予告の告知,3)HTMLタグに注目してキーワードの抽出を行う方法を用いて同内容のWebページを探し出すアルゴリズムを開発し,抽出案験を行った。実験の結果,1)および2)の手法を用いて消失Webページのうち27%を見つけることができ,このアルゴリズムの有効性が確認された。しかし,HTMLタグに注目したキーワード抽出を用いた方法では5%以下のWebページしか検出することができず,HTMLタグがメタ言語としては十分に機能していないことが明らかとなった。
|