言語のスケールフリー性に着目した大規模テキストからの特徴的なパターン発見

研究課題

研究課題/領域番号	19700150
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	九州大学
研究代表者	池田大輔九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)
研究期間 (年度)	2007 – 2008
研究課題ステータス	完了 (2008年度)
配分額 *注記	3,750千円 (直接経費: 3,300千円、間接経費: 450千円) 2008年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2007年度: 1,800千円 (直接経費: 1,800千円)
キーワード	知識発見とデータマイニング / テキストマイニング / 部分文字列による頻度推定 / 背景集合を用いたマイニング / 例外文字列発見 / スパム検出 / ワードサラダ / Zスコア / 接尾辞木
研究概要	本研究の大目標は、スケールフリー性を利用し、言語や対象領域に依存しないテキストマイニングの手法を確立することである。これに対し、可変長の文字列の組み合わせでパターンを発見する手法を2つ提案し、その有効性を実験により示した。最初の手法で用いるパターンは、複数の可変長部分文字列が重複を持って重なっている。この手法により、従来は困難だったワードサラダと呼ばれる人工的に生成されたスパムを検出できるようになった。この手法は、普通の頻度分布と異なる部分を抽出するという意味で従来よく用いられてきた標準正規分布からのずれ(z-score)を用いた手法に近い。一方で、データマイニングの分野で研究されてきた例外パターン発見の枠組みをテキストに応用し、z-scoreでは見つけられなかったパターンを発見できることを、DNA配列を用いた実験により示した。

報告書

(3件)

2008 実績報告書研究成果報告書 ( PDF )
2007 実績報告書

研究成果
(5件)

すべて 2009 2008

すべて雑誌論文 (1件) 学会発表 (4件)

[雑誌論文] Unsupervised Spam Detection by Document Complexity Estimation2008
- 著者名/発表者名
  Takashi Uemura, Daisuke Ikeda and Hiroki Arimura
- 雑誌名
  
  Proceedings of the llth Inernational Conference on Discovery Science, Lecture Notes in Artificial Intelligence, Springer-Verlag Vol. 5255
  
  ページ: 319-331
- 関連する報告書
  2008 研究成果報告書
[学会発表] CF-Suffix Trieを用いた頻出移動パターンマイニング手法2009
- 著者名/発表者名
  稲田泰裕,池田大輔,鈴木英之進
- 学会等名
  第9回データマイニングと統計数理研究会
- 発表場所
  京都
- 年月日
  2009-03-03
- 関連する報告書
  2008 研究成果報告書
[学会発表] 時系列データマイニングによる動的ヘテロなシステムからの知識発見-宇宙天気研究における大規模帰納処理システム構築へ向けて2009
- 著者名/発表者名
  徳永旭将、中村和幸、樋口知之、池田大輔、大久保翔、藤本昌子、吉川顕正、湯元清文、MAGDAS/CPMNグループ湯元清文
- 学会等名
  日本地球惑星科学連合2009年大会
- 関連する報告書
  2008 研究成果報告書
[学会発表] Unsupervised Spam Detection by Document Complexity Estimation2008
- 著者名/発表者名
  Uemura, Ikeda, and Arimura
- 学会等名
  Discovery Science
- 発表場所
  ブダペスト(ハンガリー)
- 年月日
  2008-10-16
- 関連する報告書
  2008 実績報告書
[学会発表] Unsupervised Spam Detection by Document Complexity Estimation2008
- 著者名/発表者名
  Takashi Uemura, Daisuke Ikeda and Hiroki Arimura
- 学会等名
  Proceedings of the llth Inernational Conference on Discovery Science, Lecture Notes in Artificial Intelligence, Springer-Verlag
- 関連する報告書
  2008 研究成果報告書

言語のスケールフリー性に着目した大規模テキストからの特徴的なパターン発見

研究代表者

池田 大輔 九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)

3,750千円 (直接経費: 3,300千円、間接経費: 450千円)

報告書

研究成果

[雑誌論文] Unsupervised Spam Detection by Document Complexity Estimation2008

著者名/発表者名

雑誌名

関連する報告書

[学会発表] CF-Suffix Trieを用いた頻出移動パターンマイニング手法2009

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 時系列データマイニングによる動的ヘテロなシステムからの知識発見-宇宙天気研究における大規模帰納処理システム構築へ向けて2009

著者名/発表者名

学会等名

関連する報告書

[学会発表] Unsupervised Spam Detection by Document Complexity Estimation2008

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Unsupervised Spam Detection by Document Complexity Estimation2008

著者名/発表者名

学会等名

関連する報告書

池田大輔九州大学, 大学院・システム情報科学研究院, 准教授 (00294992)