2003 Fiscal Year Annual Research Report
文字列集合からの高速パターン抽出アルゴリズムの開発と実働化
Project/Area Number |
14780226
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Keywords | パターン発見 / データマイニング / 文字列処理 / 探索 |
Research Abstract |
大量のテキストデータの中から自明でない規則を抽出しようという,いわゆるテキストマイニングの技法の開発には大きな期待が寄せられている.実際上のアプリケーションにおいては,その探索空間の広大さと現実の計算機パワーとの間の埋めがたいギャップのため,ほとんどの場合について,問題固有の知識を利用しながら探索を制御し,探索経路の組み合わせ的爆発に対する工夫を行うことが必要となっている.本研究では,特に力点を文字列としてのパターン抽出におき,文字列集合を特徴付ける規則を高速に発見するための高速なアルゴリズムの開発を行うことを目標としている. 本年度は,特に部分的な不一致を許したパターンの発見に力点を置いた.すなわち,データそのものの観測誤差やノイズなどに柔軟に対応できる頑健なアルゴリズムを構築することを目的として,パターンのマッチングに不一致数のパラーメータを導入し,このパラーメータの探索そのものも半自動的に行うための方法論を探求した.一般に,パターンマッチングだけを取ってみても,このような不一致を許すととたんに計算量が増大することが知られている.そこで,これまで段階的に取り組んできた部分文字列パターンと部分列パターン,エピソードパターンに対して,それぞれこの不一致を許したマッチングへの対応方法を根本から再検討した.そしてこれらの一般形であるVLDCパターンをさらに一般化して,可変長のみならず定数長の文字列代入を表すワイルドカード記号を導入したFVLDCパターンを提唱し,そのパターンを効率よく発見するアルゴリズムを開発した.そして,ある範囲内でのミスマッチの合計値を抑える形で近似パターンとして使えることを示し,そのためのアルゴリズムも与えた.また,部分列パターンのマッチングを高速に行うためのデータ構造である部分列オートマトンについて,その状態数の下限を証明することにも成功した.
|
Research Products
(3 results)
-
[Publications] Masahiro Hirao et al.: "A practical algorithm to find the best subsequences patterns"Theoretical Computer Science. Vol.292. 465-479 (2003)
-
[Publications] Zdenek Tronicek et al.: "The Size of Subsequence Automaton"Lecture Notes in Computer Science. 2857. 304-310 (2003)
-
[Publications] Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)