平成20年度においては、シス制御因子のパターンを推定するために、プロモーター配列から保存部分配列を検出するようなモチーフ抽出の手法を開発した。本研究では、従来とは異なり、網羅的にシス制御因子を抽出する必要があるため、特に大規模なプロモーター配列からのモチーフ抽出手法を開発した。大規模な配列群に対して適用しなければならないために、高速なアルゴリズムが必要となる。本手法では、等確率オリゴマーおよびグレイ・コードの手法を採用し、高速なモチーフ抽出を実現した。従来の手法では処理に数日を要するデータに対して、本手法では数分のオーダーでの処理が可能となった。 モチーフ抽出の手法は一般に多くの偽陽性を含み得る。そこで比較ゲノムおよび既知のモチーフ情報と比較することによって、シス制御因子の推定の高精度化を行った。それぞれの手法で推定されたモチーフを客観的に比較するために、潜在クラスモデルを元にした解析法を開発し適用した。潜在クラスモデルでは、複数のデータ群から、それに潜在する観測されないクラスを推定することができる。ここでは潜在クラスは、推定されたモチーフが真であるか偽であるかである。潜在クラスモデルを適用することによって、それぞれの手法の精度が推定できると共に、それぞれの手法を統合しモチーフ部位を推定することが可能となった。従来の潜在クラスモデルでは、個々のデータ間は独立であることが仮定されるが、本研究の対象であるモチーフは、塩基レベルでは相関を有する。そこで本研究では、潜在クラスモデルを拡張し、隠れマルコフモデルを適用することによって解析を行った。
|