タンパク質の構造データは分子進化や統御メカニズムの解明だけでなく、医農薬品開発の標的としても極めて重要である。本年度研究では、最初にアミノ酸配列レベルの近傍フラグメント、すなわち注目残基とその前後残基から構成されるフラグメントを網羅的に集積したデータベースの構築を行なった。NCBI RefSeqデータベース中のヒト由来のアミノ酸配列データ約3万件をもとに、フラグメントの出現確率やその共起確率に基づく特徴解析を試みた結果、モチーフに関連する興味深い特徴パターンを見出すことができた。 一方、三次元座標情報に基づく近傍フラグメントスペクトル表現をもとに、タンパク質立体構造の類似性評価への応用を試みた。近傍距離のしきい値を変化させることにより、例えば二次構造要素の違いやその折りたたみパターンなど、異なる視点による特徴解析が可能であることを示した。また、従来の近傍フラグメントサイズ(構成残基数)の情報だけでなく、その物理化学的特性値情報の利用について検討した。具体的には、近傍フラグメントを構成する各アミノ酸残基の特性値の総和をそのフラグメントの重みと定義した。例えば、疎水性インデックスで重み付けした結果を元の分子構造に重ね合わせて表示することにより、分子表面と内部の違いや、多量体構造における周辺環境の違いを可視化することができた。さらに、複数の鎖が会合する四次構造やタンパク質複合体を対象として、その会合領域パターンに注目した立体構造の自動分類への応用についても検討した。近傍原子(アミノ酸残基)の情報だけではなく、四次構造を構成しているサブユニットの帰属情報を重み付けることにより、サブユニット間の会合領域など、構造的に重要な役割を果たしていると思われる部位の特徴を強調して表現することができた。
|