研究概要 |
近年、プロテオーム研究の進展に伴い、蛋白質のドメイン領域を同定する手法の必要性が増している。これまで理論的なドメイン同定法としては、既存のドメイン・データベース(例えば、Pfam, CD, SMART)などを利用した配列相同性に基づく方法が使用されてきたが、既存のドメイン・データベースとの配列相同性からでは新規ドメインが予測できないことが認識されるようになっている。そこで本研究では、対象蛋白質のアミノ酸配列に含まれた情報だけからドメイン領域(正確にはドメイン境界)を予測するニューラルネットワーク・学習機械の開発・改良を目的として研究を進め、以下の成果をあげた: (1)学習(トレーニング)データセットの準備を次の通り行った:PDB多ドメイン蛋白質からIdentity<30%で代表配列を選択し、SCOP及びCATH構造分類データベースのドメイン境界定義を基に、本研究で開発したアルゴリズムを用いて「構造ドメイン」の境界を同定した。「構造ドメイン」とは、独立した構造を形成するドメインを示す。学習には、構造ドメインの境界に座位するループ領域(DSSP定義)を「ドメインリンカー」と定義し、学習データセットを構築した。 (2)ドメインリンカー学習機械の開発においては、SVMlight(サポートベクターマシン)を用いて、学習における各種パラメータの認識率への影響を調べ、プログラムの学習効率を調べた。SVMlightを用いることで、以前の研究で開発したニューラルネットワークの1/5程度の学習時間で同等の学習効率が得られることを明らかにした。 現在、SVMlightを用いた予測効率をさらに向上させ、ドメインリンカー予測システムを完成させている。また、本研究で構築したドメインリンカー(境界)データベースについては、Web公開を予定している。本研究の結果は3つの論文に纏めてある。
|