最適複合文字列パターン発見アルゴリズムに関する研究

研究課題

研究課題/領域番号	18700153
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	九州大学
研究代表者	坂内英夫九州大学, 大学システム情報科学研究所, 准教授 (20323644)
研究期間 (年度)	2006 – 2007
研究課題ステータス	完了 (2007年度)
配分額 *注記	3,100千円 (直接経費: 3,100千円) 2007年度: 1,400千円 (直接経費: 1,400千円) 2006年度: 1,700千円 (直接経費: 1,700千円)
キーワード	パターン発見 / 接尾辞配列 / 接尾辞木グラフ / 窓付き最長共通部分列長 / 部分文字列
研究概要	本年度の主な成果は以下の3点である.1)昨年度に引き続き,最適複合文字列パターン発見を行う際に不必要なパターン候補を減らす手法について研究を行った.部分文字列パターンの候補を減らすために,テキストにおける出現箇所に関する部分文字列上の同値関係を定義し,部分文字列を同値類に分解することが考えられる.この部分文字列の同値類分解問題は接尾辞木やCDAWGなどのデータ構造を用いることで,テキスト長に関して線形時間でできることが知られてはいたものの,大きな記憶容量を要した.これに対し,本研究ではこの同値類分解を接尾辞配列と二つの補助配列のみを用いて線形時間で行うアルゴリズムを考案した.また,接尾辞木などを用いた従来アルゴリズムと比べ,計算速度と記憶容量の両面で優れていることを様々なデータに対する計算機実験で示した.2)上述の部分文字列上の同値類分解アルゴリズムを利用することで,インターネット上の掲示板データから特徴的な部分文字列同値類を複数抽出し,それを基に掲示板におけるスパム投稿を検出する効率の良い教師無し学習アルゴリズムを提案した.また計算機実験によりその有効性を確認した.3)様々なパターンクラスに対して最適パターン発見アルゴリズムの実装を行う際に必要な,パターンクラスに依存しない共通点を明確にし,実装作業を簡易化するためのソフトウェア基盤開発に取り組んだ.C++言語のテンプレートを利用したライブラリの基礎設計を行い,プロトタイプを作成した.

報告書

(2件)

2007 実績報告書
2006 実績報告書

研究成果
(7件)

すべて 2008 2007 2006

すべて雑誌論文 (6件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] Reachability on Suffix Tree Graphs2008
- 著者名/発表者名
  Higa, Y, et. al.
- 雑誌名
  
  International Journal of Foundations of Computer Science 19(1)
  
  ページ: 147-162
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] Efficient Computation of Substring Equivalence Classes with Suffix Arrays2007
- 著者名/発表者名
  Narisawa, K., et. al.
- 雑誌名
  
  Proc. 18th Annual Symposium on Combinatorial Pattern Matching, Lecture Notes in Computer Science 4580
  
  ページ: 340-351
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] Unsupervised Spam Detection based on String Alienness Measures2007
- 著者名/発表者名
  Narisawa, K., et. al.
- 雑誌名
  
  Proc. 10th International Conference on Discovery Science, Lecture Notes in Computer Science 4755
  
  ページ: 161-171
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] On the complexity of deriving position specific score matrices from positive and negative sequences2007
- 著者名/発表者名
  Akutsu, T., et al.
- 雑誌名
  
  Discrete Applied Mathematics 155
  
  ページ: 676-685
- 関連する報告書
  2006 実績報告書
[雑誌論文] Reachability on Suffix Tree Graphs2007
- 著者名/発表者名
  Higa, Y. et al.
- 雑誌名
  
  International Journal of Foundations of Computer Science (in press)
- 関連する報告書
  2006 実績報告書
[雑誌論文] A New Family of String Classifiers based on Local Relatedness2006
- 著者名/発表者名
  Higa, Y. et al.
- 雑誌名
  
  Lecture Notes in Artificial Intelligence 4265
  
  ページ: 114-124
- 関連する報告書
  2006 実績報告書
[学会発表] Algorithms for String Pattern Discovery2007
- 著者名/発表者名
  Bannai, H.
- 学会等名
  Modeling Decisions for Artificial Intelligence 2007
- 発表場所
  北九州市
- 年月日
  2007-08-18
- 関連する報告書
  2007 実績報告書

最適複合文字列パターン発見アルゴリズムに関する研究

研究代表者

坂内 英夫 九州大学, 大学システム情報科学研究所, 准教授 (20323644)

3,100千円 (直接経費: 3,100千円)

報告書

研究成果

[雑誌論文] Reachability on Suffix Tree Graphs2008

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Efficient Computation of Substring Equivalence Classes with Suffix Arrays2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Unsupervised Spam Detection based on String Alienness Measures2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] On the complexity of deriving position specific score matrices from positive and negative sequences2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Reachability on Suffix Tree Graphs2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A New Family of String Classifiers based on Local Relatedness2006

著者名/発表者名

雑誌名

関連する報告書

[学会発表] Algorithms for String Pattern Discovery2007

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

坂内英夫九州大学, 大学システム情報科学研究所, 准教授 (20323644)