2002 Fiscal Year Annual Research Report
文字列集合からの高速パターン抽出アルゴリズムの開発と実働化
Project/Area Number |
14780226
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Keywords | パターン発見 / データマイニング / 文字列処理 / 探索 |
Research Abstract |
本研究は,与えられた大量の文字列集合から,それを特徴づけるパターンを発見する問題を最適化問題としてとらえ,最適性は保証しながら現実的な時間で探索を行う効率のよりアルゴリズムの開発を行うことを主眼としている.今年度は,2つの文字列集合の違いを特徴づけるパターンとして,特にVLDCパターン(Variable length Don't Care パターン)に着目して研究を展開した.VLDCパターンは,任意長の文字列を代入できるワイルドカード記号を持つパターンで,我々がこれまでに研究対象にしてきた部分文字列パターンおよび部分列パターンの一般形である.したがって,表現力ははるかに上がる一方で,照合処理の複雑化と探索空間の増大が問題となる.我々は,この問題を克服するために,MASDAWGと呼ぶ新たなデータ構造を開発し,VLDCパターンの照合の高速化を行った.また,与えられた文字列からMASDAWGを高速に構築するアルゴリズムの開発に成功した.さらに,パターン発見の高速化のためにヒューリスティクスを導入し,その有効性を計算機実験により確認した.一方,これまでは,入力は正と負の2つの集合であると仮定してきたが,現実的には必ずしも2値に分けるのが適当ではなく,その度合いを考慮に入れた方がよい場合がある.そこで我々は,これまでの枠組みを正負の2値から任意の実数値へと拡張し,その中で最も分離度が高くなるパターンを高速に発見するアルゴリズムの開発を行った.そしてこのアルゴリズムを遺伝子データに適用し,その効果を確認した.
|
Research Products
(5 results)
-
[Publications] M.Hirao et al.: "A practical algorithm to find the best subsequences patterns"Theoretical Computer Science. 292(2). 465-479 (2003)
-
[Publications] H.Bannai et al.: "A String Pattern Regression Algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)
-
[Publications] S.Inenaga et al.: "Discovering Best Variable-Length-Don't-Care Patterns"Lecture Notes in Artificial Intelligence. 2534. 86-97 (2002)
-
[Publications] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All-Suffixes of a String"Lecture Notes in Computer Science. 2534. 86-97 (2002)
-
[Publications] S.Inenaga et al.: "The Minimum DAWG for All Suffixes of a String and Its Applications"Lecture Notes in Computer Science. 2373. 151-165 (2002)