2008 年度実績報告書

言語のスケールフリー性に着目した大規模テキストからの特徴的なパターン発見

研究課題

研究課題/領域番号	19700150
研究機関	九州大学
研究代表者	池田大輔九州大学, システム情報科学研究院, 准教授 (00294992)
キーワード	テキストマイニング / 部分文字列による頻度推定 / 背景集合を用いたマイニング / 例外文字列発見 / スパム検出 / ワードサラダ / Zスコア
研究概要	本研究の目的は、スケールフリー性(単語の頻度分布に対するベキ分布、Zipfの法則とも呼ばれる)を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。申請者は以前にベキ分布を陽に用いて、この分布からの差により特徴的なパターンを発見する手法を提案した。しかし、この手法では完全に同一の部分文字列しか見つけられず、そのためある程度長いパターンしか発見できないという問題点があった。そこで、頻度の計測にパターンを直接使わず、より小さな単位(可変長の文字列)に分解し、これらの頻度からパターンの頻度を推定する手法を提案した。この手法をもとに、文書ごとの情報量に相当する量を導入することで、従来は不可能だったワードサラダと呼ばれる文章の中の単語がランダムに変えられた特殊なスパムを検出することが可能になった。この手法では推定に用いる短い文字列を与えられたデータから発見するが、他の集合との比較、例えば、遺伝子配列の種ごとの比較などを行いたいという要望もある。そこで、背景集合を別に与え、この中から部分文字列パターン発見し、全体パターンの頻度を推定する。前者の手法は部分文字列から重なりをもってパターンを構成するが、後者では二つの可変長文字列の連接でパターンが構成される。この単純にもかかわらず、従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法では発見できないパターンを効率よく見つかれることが確認できた。また、構成単位となる部分は(背景集合に)多いがこれらを連結したものは非常に少ないという制約を与えることで、絶対的な頻度は小さいが長い例外的なパターンを発見することが可能になった。スケールフリー性をもつテキストデータにおいては、小さな頻度の文字列は非常に数が多いことが知られており(Zipfの第二法則)、単純な頻度の閾値ではこのような低頻度のパターンを見つけることは困難である。

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] Unsupervised Spam Detection by Document Complexity Estimation2008
- 著者名/発表者名
  Uemura, Ikeda, and Arimura
- 学会等名
  Discovery Science
- 発表場所
  ブダペスト(ハンガリー)
- 年月日
  2008-10-16