冗長性を省いたタンパク質のfold代表セットを用いて、階層的クラスタリング手法を適用し、局所構造パターンの分類を行った。まず代表セットを分割し、各々のセットで局所構造分類を行い、その分類結果を比較することで、既知構造中に局所構造パターンが十分良く出現しているといえるかどうかについて確認を行った。分類結果は、局所構造類似性の閾値(CαRMSD)と、どの範囲までを局所構造空間とみなすか(=任意のCα原子を中心とする球の半径を指標として用いた)という2つのパラメータの影響を受ける。今回、類似性と半径についての様々な閾値の組み合わせを用いて分類を行い、分割されたいずれのデータセットにおいても、分類結果の統計的特徴は、大半の場合同様の傾向を示すことが明らかになった。ただし、局所構造類似性の閾値を2Å(以下)とすると、その他の閾値を用いた場合と比べ、分布形状が変化し、2つの異なるデータセットでの分類結果も異なってくることが観察された。また、分類された各クラス内でのアミノ酸種毎の出現頻度を観測し、クラスによって、分割されたセットで同様の結果が得られることが確認された。 次に、構造既知タンパク質を用いて得られた配列プロファイルの含んでいる分子進化の情報と上述のアミノ酸種毎の出現頻度を相互に比較することにより、各サイトにおけるアミノ酸出現頻度と局所構造パターンの相関が高い領域を同定した。ここで得られたプロファイルと構造パターンの相関情報を、平成18年に開催された立体構造予測実験CASP7で、適切な配列プロファイルが得られた新規構造予測問題に適用し、予測体構造の満たすべき拘束条件として使用し、部分的な制約としては精度の良いものであった。ただし現状では、構造全体をより精度良く予測するための一つの処方として、配列プロファイルと局所構造パターンの高相関領域の同定に更なる工夫が望まれることも判明した。
|