研究概要 |
経済現象や社会現象と同様に、Web空間でも自然な分布が存在することが知られている。例えば、Webページ間のリンク数の頻度分布は、魚群や都市の規模分布や大企業の所得分布と同様なベキ分布に従う。一方、このような自然な多様性から乖離する多数のWebデータも存在する。それはデータベース等から半自動的に生成される同一形式のページや、最新の話題について短期間に増加するページ群である。前者では、共通パターンや反復パターンのテンプレートの出現頻度が自然な分布から乖離し、後者では特徴的キーワードの出現頻度やページ間のリンク状況が自然な分布から乖離している。本研究は、有用な情報を自動的に発見・抽出するため、Web空間における自然な分布からの乖離現象を解明をめざした。具体的には100万件規模のWebページ群を対象に、部分文字列の出現頻度の頻度分布についてベキ分布からの乖離と定型的パターンの関連ならびに、ページ間のリンク数の分布に基づき、萌芽的Webコミュニティ、特異的Webコミュニテイの特徴解明を目指した。具体的には、シラバスに代表されるシリーズ型ページ群に対し、長さnの部分文字列で出現頻度fの文字列の種類数V(n, f)の分布を解析し、共通パターン発見アルゴリズムを開発した。また評判情報に関するページ群を収集し、一般的ページにおける形容詞の出現頻度との乖離を用いて、評判情報に特徴的な単語の抽出手法を考案した。単語の出現頻度の解析によりさらに単語間の上位下位概念に対する新しい定式化である「概念グラフ」を考案した。これは文書群から決定的に決まるもので、様々な文書群に適用できることを確認している。当初のべき分布からの乖離という方向とは異なるが、オントロジー構築への新しい可能性として今後の展開が期待できる新しいテーマと考えてる。当初予定していた、リンク構造の分析については時間的にできなかった。しかし、この「概念グラフ」は文書と単語だけでなく、ページ間のリンクの解析についても適用できる。
|