研究概要 |
本研究の目的は,属性創造と属性空間の探索により,シグナル配列発見問題を解決することである.本年度は,シグナル配列を捉える個々のパターンを属性と捉え,これらの包含関係に着目し,様々なパターンからなる巨大探索空間を効率よく探索する枝刈り探索アルゴリズムを開発・実装した.また,計算機実験による手法の有効性の検証を行った. 問題の定式化と計算量: シグナル配列の特徴を表すパターンモデルの一つにIUPAC核酸コード上の文字列があげられる.本研究では,これをdegenerate patternとしてフォーマルに定式化し,与えられた配列データセットに対する最適degenerate patternを見つける計算問題がNP-完全であることを明らかにした. 属性空間の探索: degenerate patternが定義する言語の包含関係から得られるパターンの評価値の上限に関する特徴付けを利用したdegenerate patternのための枝刈りアルゴリズムを開発した. 計算機実験: 開発した手法の有効性を合成データと実データを用いて既存手法との比較実験を行った.実データを用いた実験においては,yeastのデータベースSCPD(the promoter database of Saccharomyces cerevisiae, http://cgsigma.cshl.org/jian/)に登録されている既知のシグナル配列の検出率を基準とした.これにより,多くの既知配列に対して手法の有効性が確認された. また,以上の研究の発展として,これらパターンを基礎の属性とする帰納的仮説モデル(例えば,決定木や論理式など)が与える甚大な探索空間を効率よく探索するための基礎理論を構築する研究にも着手した.そこでは,仮説モデル間の類似度を与えるメジャーを定式化し,代表的な帰納的仮説モデル間の類似度を解析することに成功している.
|