2008 Fiscal Year Final Research Report

Pattern Discovery from Large Text Data Based on the Property of Languages Being Scale-Free

Research Project

Project/Area Number	19700150
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Kyushu University
Principal Investigator	IKEDA Daisuke Kyushu University, 大学院・システム情報科学研究院, 准教授 (00294992)
Project Period (FY)	2007 – 2008
Keywords	知識発見とデータマイニング
Research Abstract	本研究の大目標は、スケールフリー性を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。これに対し、可変長の文字列の組み合わせでパターンを発見する手法を2つ提案し、その有効性を実験により示した。最初の手法で用いるパターンは、複数の可変長部分文字列が重複を持って重なっている。この手法により、従来は困難だったワードサラダと呼ばれる人工的に生成されたスパムを検出できるようになった。この手法は、普通の頻度分布と異なる部分を抽出するという意味で従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法に近い。一方で、データマイニングの分野で研究されてきた例外パターン発見の枠組みをテキストに応用し、z-scoreでは見つけられなかったパターンを発見できることを、DNA配列を用いた実験により示した。