平成20年度では、まず前年度に構築したフラグメント端間距離予測システムの精度のさらなる評価を行った。アミノ酸配列からのタンパク質立体構造予測の真のブラインドテストであるCASP8のターゲットのうち、配列類似の既知構造テンプレートがないものについて、予測精度を求めたところ、これまでの見積りと同程度の精度が得られていることが確認できた。 次に、システムと2次構造予測情報の組み合わせを試みた。フラグメント端間距離予測システムに、新たな入力として。 PSIPRED(McGuffin et al.2000)による2次構造予測結果を加え、端間距離予測精度の変化をみた。その結果、ループ領域においては数%から10数%程度、全領域でみたときには20%以上の性能向上がみられた。この結果を受けて、フラグメント単位で配列プロファイル情報の類似、2次構造予測結果の類似、端間距離予測結果の類似から、構造類似度を定義し、類似フラグメントの数を数えることで、タンパク質間あるいはフォールド間の構造類似度を計算するツールを開発した。配列プロファイルの類似度には、よい性能を示す報告が多い相関係数を用いた。 さらに、構造類似と機能類似の関係を解析するために、2つのタンパク質の間の機能類似度をGene Ontology(GO)をもとに計算するツールを開発した。機能類似度の定義は、両者で共通するGOキーワードの出現確率をもとにした方法を採用した。 そしてこれらのツールを統合し、既存のフォールドの問の機能・立体構造の類似度を求めてネットワーク構造を構築した。最終的に、未知のアミノ酸配列を入力として、その配列の既知フォールドとのフラグメントでの予測構造類似をもとに、求めたネットワーク構造の上に入力配列を置き、機能予測を行うためのシステムの構築に成功した。
|