研究概要 |
近年、プロテオーム研究の進展に伴い、蛋白質のドメイン領域を同定する手法の必要性が増している。これまで理論的なドメイン同定法としては、既存のドメイン・データベース(例えば、Pfam,CD,SMART)などを利用した配列相同性に基づく方法が使用されてきたが、既存のドメイン・データベースとの配列相同性からでは新規ドメインが予測できないことが認識されるようになっている。そこで本研究では、対象蛋白質のアミノ酸配列に含まれた情報だけからドメイン領域(正確にはドメイン境界)を予測するニューラルネットワークの開発・改良を目的として研究を進め、16年度には以下の成果をあげた: (1)配列学習に置いては、多ドメイン蛋白質のデータセットの準備を次の通り行った: PDBに登録されている多ドメイン蛋白質の中から互いに配列類似生が無い(Identity<30%)データセットを作製した。ドメインの定義にはSCOP及びCATH構造分類データベースの定義を用い、本研究で開発した構造ドメイン同定アルゴリズムを用いて自ら独立した構造を形成する「構造ドメイン」であることを確かめ、DSSPでループ領域と分類される領域をドメインリンカー配列と定義した。最終的に、241ドメインリンカー配列から成る学習データを作製した。 (2)ニューラルネットワークの開発においては、基本アルゴリズムに従ってプログラムを構築した。その後、以前の研究で作製したテストデータを用いて、学習(トレーニング)における各種パラメータの認識率への影響を調べ、プログラムの性能を確認した。 学習データセットの完成と集団学習(ensemble learning)法の応用は、当初の予定通り17年度に推進可能である。
|