経済現象や社会現象と同様に、Web空間でも自然な分布が知られている。例えば、Webページ間のリンク数の頻度分布は、魚群や都市の規模分布や企業の所得分布と同様なベキ分布に従う。一方、このような自然な多様性から乖離する多数のWebデータも存在する。それはデータベースから自動的に生成される定型的なページや、最新の話題について短期間に増加するページ群である。前者では共通パターンが、後者では特徴的キーワードが自然な分布から乖離する。本研究では、文字列の出現頻度に着目して、このような自然な分布からの乖離現象を解明し、大量のWebページ群から意味のある情報を抽出するアルゴリズムを構築する。 今年度は、ある頻度f回出現する全ての部分文字列をまとめてfにより表し、また、頻度fの大小により頻出か否かを判断するのではなく、f回出現する部分文字列の総出現数F(f)を用いて高頻度と低頻度を峻別する線形時間アルゴリズムを考案した。この方法では、頻度を用いるパターン抽出法で必要となる、枝刈りや最小サポート等のしきい値は不要となる。 また、自然な分布からの乖離の分析対象として、Web上の評判情報に現れる単語に着目し、特徴的な単語を求めるためのアルゴリズムを検討した。具体的には、病院評判情報についてデータの収集を行なった。
|