タンパク質の一次構造から機能部位を予測するために、多変量解析を中心とした方法論の研究と、必要なデータの集積を行った。多変量解析の出発点はアミノ酸配列を単に文字列としてだけでなく、アミノ酸の物理化学的および生物化学的性質を反映した数値データの列として表現することである。そこで疎水性などアミノ酸の様々な指標のデータベースを構築し、クラスター分析により指標のグループ化を行った。これにより、 (1)自由なアミノ酸とポリペプチド鎖中のアミノ酸の指標とが二分されること、 (2)疎水性の他に、ヘリックスになりやすさ、βシートになりやすさ、ターンになりやすさ、側鎖の大きさの5つが主なクラスターとして見いだされること、 (3)ヘリックスになりやすさとターンになりやすさは比較的近いことなどが明らかになった。つぎにこのアミノ鎖指標データベースを用いて実際のアミノ酸配列を数値データの列で表現し、そのプロファイルの特徴から機能部位を予測することを試みた。具体的には数多くの数値プロファイルの特徴を変数として定義し、判別分析の方法を用いて、機能部位を最もよく特徴づける変数の組を選択することを行った。変数選択には二次の判別関数で総当たり的にすべての組合せを行うやり方(選択される変数の数は少数)と、段階的判別分析の方法(選択される変数の数は多数)の2種類を試みた。前者はタンパク質立体構造データベースから作成したヘリックス、βシート、コイルの断片配列の分類に適用し、後者はNBRF配列データベースを利用して作成したデータをもとにグリコシル化およびリン酸化部位の予測に適用した。さらに前者の方法は抗原性決定部位の予測についても試験的に適用した。抗原性決定部位については機能部位データベース構築の実例として重点的にデータ収集を行った。データの解析については次年度に本格的に行う予定である。
|