近年のプロテオミクス研究の発展に伴い、発現・精製が困難なタンパク質や構造解析が不可能な各種巨大タンパク質を構造ドメイン単位に分割するための手法が求められている。一般的に、ドメインへの分割には、実験的手法が用いられるが、時間・費用面から理論計算からドメイン境界を同定する方法の開発研究が注目されている。本研究課題では、構造及び機能未知の新規タンパク質のドメイン境界領域をそのアミノ酸配列のみから推定する方法として、15残基程度のコイル(ループ)からなるドメイン境界領域(以下、ドメインリンカー)を識別するサポートベクターマシン(Support Vector Machine、以下SVMと略)を構築し、新規のドメインリンカー予測法を開発した。具体的には、平成18年度に、以下の研究成果を得た: ●SVMの学習に用いる「多ドメインタンパク質」のデータセットを自動的に構築する計算プロトコルを開発し、200以上の多ドメインタンパク質からなる学習データセットを構築した。 ●SVMの入力情報の表現形式にアミノ酸配列のバイナリー表現(binary coding)を用いることで、効率的な学習が可能になることを明らかにした。また、Cross validation法を用いたAUC(Area Under the Curve)の最大化を指標にして、SVMで用いる種々パラメータの値を決定し、カーネル関数には線形関数を採用した。以上の条件下で、SVMの学習を行なった。 ●リンカー予測には、SVMで計算される各残基の、リンカー傾向性の値を、前後の数残基の値と平均化し、リンカー傾向性のノイズを削除し、その平均値が閾値以上になる領域をドメインリンカー候補とした。 ●現時点のリンカー予測の効率は、Sensitivityが63.6%、Specificityが46.6%である。これらの値は、ランダムにドメイン境界を選択した時よりSensitivityが30%以上、Specificityが10%高い値で、過去に提案されたドメイン予測法より10%から15%高い値である。平成19年度には、予測効率のさらなる向上を目指し、SVMを改良する。
|