研究課題
本研究課題では、構造及び機能未知の新規タンパク質のドメイン境界領域をそのアミノ酸配列のみから推定する方法として、コイル(ループ)からなるドメイン境界領域(以下、ドメインリンカー)を識別するサポートベクターマシン(Support Vector Machine、以下SVM)を構築し、新規のドメインリンカー予測法を開発した。19年度には、(1)アミノ酸配列情報のみを利用する手法(DLP-SVM)を開発した。(2)予測精度の向上を目的とし、PSSM情報を利用する予測手法(1stSVM)および、PSSM情報と予測二次構造情報を統合的に利用する2段階目の予測機(2ndSVM)を構築し、以下の研究成果を得た:●18年度に構築した「多ドメインタンパク質」データセットから、10残基以上の長いドメインリンカーのみを含むタンパク質を選出したデータセット(DS-Long)、9残基以下の短いドメインリンカーのみを含むタンパク質を選出したデータセット(DS-Short)をそれぞれ構築し、DS-Longを学習に用いたSVM-Long、DS-Shortを学習に用いたSVM-Short、および、これらの比較対照として配列長に関係なく、全てのデータを学習に用いた予測機であるSVM-Allを構築した。また、DS-LongとDS-Shortの配列長依存的な検出機能を統合し、予測精度を向上したSVM-Jointもあわせて構築した。●予測効率の向上を目的として構築した2ndSVMでは検出感度は44.4%、その正確性は55.8%となり、ランダムにドメインリンカー領域を予測した場合と比べ検出感度で35%、正確性で44.7%の大幅な効率向上を達成した(5-fold cross validation)。さらに、既存のドメインリンカー予測法と比較しても検出感度で4%、正確性で5%以上の向上が見られた。また、機械学習を利用した予測機の性能を示すAUC値はDLP-SVMで0.689、2ndSVMは0.830であり、他の相同配列を利用しないドメインリンカー予測手法における同値が最大でも0.81程度である事を考えれば、本提案手法の有用性が伺える。●これらの予測機は、http://www.tuat.ac.jp/~domserv/cgi-bin/DLP-SVM.cgiで公開しており、本URLにはスイスのExpasyからもリンクが張ってあり、海外からの利用者も多く見られる。
すべて 2008 2007 その他
すべて 雑誌論文 (5件) (うち査読あり 5件) 学会発表 (10件) 図書 (1件) 備考 (1件)
Proteins (In press)
J. Mol. Biol 372(3)
ページ: 737-746
BMC Bioinformatics 8:118
ページ: 電子雑誌
Bioinformatics 8
ページ: 2046-2053
Biopolymers 84(2)
ページ: 12-18
http://www.tuat.ac.jp/~domserv/cgi-bin/DLP-SVM.cgi