Pattern Discovery from Large Text Data Based on the Property of Languages Being Scale-Free
Project/Area Number |
19700150
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Kyushu University |
Principal Investigator |
IKEDA Daisuke Kyushu University, 大学院・システム情報科学研究院, 准教授 (00294992)
|
Project Period (FY) |
2007 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥3,750,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥450,000)
Fiscal Year 2008: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2007: ¥1,800,000 (Direct Cost: ¥1,800,000)
|
Keywords | 知識発見とデータマイニング / テキストマイニング / 部分文字列による頻度推定 / 背景集合を用いたマイニング / 例外文字列発見 / スパム検出 / ワードサラダ / Zスコア / 接尾辞木 |
Research Abstract |
本研究の大目標は、スケールフリー性を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。これに対し、可変長の文字列の組み合わせでパターンを発見する手法を2つ提案し、その有効性を実験により示した。最初の手法で用いるパターンは、複数の可変長部分文字列が重複を持って重なっている。この手法により、従来は困難だったワードサラダと呼ばれる人工的に生成されたスパムを検出できるようになった。この手法は、普通の頻度分布と異なる部分を抽出するという意味で従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法に近い。一方で、データマイニングの分野で研究されてきた例外パターン発見の枠組みをテキストに応用し、z-scoreでは見つけられなかったパターンを発見できることを、DNA配列を用いた実験により示した。
|
Report
(3 results)
Research Products
(5 results)