転写因子それぞれの結合部位を予測するため、DNA結合蛋白質とDNAの複合体から統計ポテンシャルを求め、そのポテンシャルを用いてゲノム上からDNA結合蛋白質のターゲット部位を探した。そのため、まず、年々増加しつづけている立体構造データベース(PDB)から蛋白質一DNA複合体の立体構造を自動的に抽出し、定期的にポテンシャルをアップデートするシステムを構築した。その複合体の解析を行い、直接認識、間接認識の両統計ポテンシャルを更新した。それを用いて、さまざまなDNA結合蛋白質とそのターゲット配列の認識機構の違いを定量的に評価することができた。また、DNA結合蛋白質は、ゲノムのORFの上流・下流に結合して、転写を制御していることが知られている。そこで、任意の長さの上流・下流のDNA配列を抽出することを行った。その抽出した配列に対して、更新したポテンシャルを用いて、蛋白質のフォールドタイプを探すスレッディング法のアナロジーにより、DNA結合蛋白質のターゲット部位を探すことを行った。さらに、遺伝子の機能、相互作用の推定を、「同じ転写因子によって制御されている遺伝子は、機能的に関係が深く、共同的に一連のパスウェイ上で働くことが多い」という経験則にもとついて行った。酵母のゲノムに対して、転写因子Matα2/MCM1に制御されている遺伝子を特定した。その遺伝子の機能を確認したところ、すべてmatingに関する遺伝子であることがわかり、少なくともこの場合は経験則の妥当性を示すことができた。この経験則がどの程度当てはまるか定量的に示すために、その他の転写因子についての網羅的解析を開始した。
|