本研究の目的は、スケールフリー性(単語の頻度分布に対するベキ分布、Zipfの法則とも呼ばれる)を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。 申請者は以前にベキ分布を陽に用いて、この分布からの差により特徴的なパターンを発見する手法を提案した。しかし、この手法では完全に同一の部分文字列しか見つけられず、そのためある程度長いパターンしか発見できないという問題点があった。そこで、頻度の計測にパターンを直接使わず、より小さな単位(可変長の文字列)に分解し、これらの頻度からパターンの頻度を推定する手法を提案した。この手法をもとに、文書ごとの情報量に相当する量を導入することで、従来は不可能だったワードサラダと呼ばれる文章の中の単語がランダムに変えられた特殊なスパムを検出することが可能になった。 この手法では推定に用いる短い文字列を与えられたデータから発見するが、他の集合との比較、例えば、遺伝子配列の種ごとの比較などを行いたいという要望もある。そこで、背景集合を別に与え、この中から部分文字列パターン発見し、全体パターンの頻度を推定する。前者の手法は部分文字列から重なりをもってパターンを構成するが、後者では二つの可変長文字列の連接でパターンが構成される。この単純にもかかわらず、従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法では発見できないパターンを効率よく見つかれることが確認できた。また、構成単位となる部分は(背景集合に)多いがこれらを連結したものは非常に少ないという制約を与えることで、絶対的な頻度は小さいが長い例外的なパターンを発見することが可能になった。スケールフリー性をもつテキストデータにおいては、小さな頻度の文字列は非常に数が多いことが知られており(Zipfの第二法則)、単純な頻度の閾値ではこのような低頻度のパターンを見つけることは困難である。
|