研究実績の概要 |
生体高分子の構造データは分子進化や統御メカニズムの解明だけでなく、医農薬品開発の標的としても極めて重要である。特にモチーフと呼ばれるタンパク質構造中に特定の配置で存在する局所構造特徴は、遺伝子またはゲノム配列の中でもよく保存されている部分であると考えられる。本年度研究では、タンパク質-遺伝子の配列、および対応する立体構造までを関連づけたモチーフ辞書(知識ベース)システムの構築を試みた。 NCBI RefSeqデータベースから7種類のモデル生物種ごとにタンパク質アミノ酸配列を抽出し、コドン縮約表現をもとにそのコーディング領域を推定し、対応データセットを生成した。次に、アミノ酸配列モチーフデータベースPROSITEの正規表現で定義された1,309パターンについて、モチーフの検索と集積を行なった。ヒトデータセット(約4万エントリ)の例では、907パターンについてその対応モチーフ部位が1件以上ヒットし、それぞれコドン重み行列の生成を行なった。これにより、例えば、Zinc-fingerではモチーフ中のシステインのコドン出現頻度において特徴的なパターンを見出すことができた。 NoSQL型ドキュメント指向データベース管理システムMongoDBのもとで知識ベースを構築した。さらに、PDBデータベースに立体構造が登録されているタンパク質について、その対応三次元モチーフ情報を集積・利用できるように工夫した。本システムを用いて、モチーフの共起関係に注目した特徴解析を試みた結果、例えば、zinc_proteaseとcysteine_switchモチーフの二つを内包するMMPタンパク質ファミリーについて、そのアミノ酸配列距離は106残基から295残基と幅があるのに対して、空間距離(モチーフ立体構造の重心座標間のユークリッド距離)はすべて約12Åと構造的に保存されていることを示すことができた。
|