(1)部分文字列パターンに関して、文字列属性中の出現が実数値属性との相関が高い文字列パターンを探索するアルゴリズムについて:接尾辞木(Suffix Tree)と呼ばれるデータ構造を用いる事で、最適なパターンをデータ中の文字列の長さの総和に対して線形時間で発見する新しいアルゴリズムを開発する事に成功した。また、開発したアルゴリズムを、酵母のマイクロアレイ実験によって得られた遺伝子の発現量と、遺伝子の上流配列を組にしたデータに適用した。アルゴリズムは従来手法と比べて非常に高速であり、発見されたパターンは(再発見ではあるものの)幾つかの既知の転写因子結合配列と一致した。 (2)複雑で表現力が高いパターン(Window Accumulated FVLDC-任意長のワイルドカード・固定長のワイルドカード・置換のミスマッチ・パターン出現の長さの制限、が表現できるパターン)に関して、文字列属性中の出現が実数値属性との相関が高い文字列パターンを探索するアルゴリズムについて:データを説明する最適なパターンを探索する際に、探索空間を枝狩りするアルゴリズムを開発し、ある程度現実的に計算できるようなプログラムを実装した。プログラムは酵母のマイクロアレイ実験によって得られたmRNAの分解速度(半減期)を測定した数値データと、mRNAの分解に関係すると言われている3'UTR配列を組にしたデータに対して適応した。得られた配列はmRNAの分解に関係すると言われる蛋白が結合する配列を一部含んでいた。
|