研究概要 |
本研究は,与えられた大量の文字列集合から,それを特徴づけるパターンを発見する問題を最適化問題としてとらえ,最適性は保証しながら現実的な時間で探索を行う効率のよりアルゴリズムの開発を行うことを主眼としている.今年度は,2つの文字列集合の違いを特徴づけるパターンとして,特にVLDCパターン(Variable length Don't Care パターン)に着目して研究を展開した.VLDCパターンは,任意長の文字列を代入できるワイルドカード記号を持つパターンで,我々がこれまでに研究対象にしてきた部分文字列パターンおよび部分列パターンの一般形である.したがって,表現力ははるかに上がる一方で,照合処理の複雑化と探索空間の増大が問題となる.我々は,この問題を克服するために,MASDAWGと呼ぶ新たなデータ構造を開発し,VLDCパターンの照合の高速化を行った.また,与えられた文字列からMASDAWGを高速に構築するアルゴリズムの開発に成功した.さらに,パターン発見の高速化のためにヒューリスティクスを導入し,その有効性を計算機実験により確認した.一方,これまでは,入力は正と負の2つの集合であると仮定してきたが,現実的には必ずしも2値に分けるのが適当ではなく,その度合いを考慮に入れた方がよい場合がある.そこで我々は,これまでの枠組みを正負の2値から任意の実数値へと拡張し,その中で最も分離度が高くなるパターンを高速に発見するアルゴリズムの開発を行った.そしてこのアルゴリズムを遺伝子データに適用し,その効果を確認した.
|