研究課題/領域番号 |
19700150
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
知能情報学
|
研究機関 | 九州大学 |
研究代表者 |
池田 大輔 九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)
|
研究期間 (年度) |
2007 – 2008
|
研究課題ステータス |
完了 (2008年度)
|
配分額 *注記 |
3,750千円 (直接経費: 3,300千円、間接経費: 450千円)
2008年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2007年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | 知識発見とデータマイニング / テキストマイニング / 部分文字列による頻度推定 / 背景集合を用いたマイニング / 例外文字列発見 / スパム検出 / ワードサラダ / Zスコア / 接尾辞木 |
研究概要 |
本研究の大目標は、スケールフリー性を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。これに対し、可変長の文字列の組み合わせでパターンを発見する手法を2つ提案し、その有効性を実験により示した。最初の手法で用いるパターンは、複数の可変長部分文字列が重複を持って重なっている。この手法により、従来は困難だったワードサラダと呼ばれる人工的に生成されたスパムを検出できるようになった。この手法は、普通の頻度分布と異なる部分を抽出するという意味で従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法に近い。一方で、データマイニングの分野で研究されてきた例外パターン発見の枠組みをテキストに応用し、z-scoreでは見つけられなかったパターンを発見できることを、DNA配列を用いた実験により示した。
|