研究課題/領域番号 |
16500189
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
生体生命情報学
|
研究機関 | 東京農工大学 |
研究代表者 |
黒田 裕 東京農工大学, 大学院・共生科学技術研究部, 助教授 (10312240)
|
研究分担者 |
籐 博幸 (藤 博幸) 九州大学, 生体防御医学研究所, 教授 (70192656)
|
研究期間 (年度) |
2004 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
3,300千円 (直接経費: 3,300千円)
2005年度: 1,200千円 (直接経費: 1,200千円)
2004年度: 2,100千円 (直接経費: 2,100千円)
|
キーワード | ドメイン境界 / 構造ドメイン / 蛋白質構造予測 / ニューラルネットワーク / サポートベクターマシン(SVM) / 集団学習 / 構造予測 |
研究概要 |
近年、プロテオーム研究の進展に伴い、蛋白質のドメイン領域を同定する手法の必要性が増している。これまで理論的なドメイン同定法としては、既存のドメイン・データベース(例えば、Pfam, CD, SMART)などを利用した配列相同性に基づく方法が使用されてきたが、既存のドメイン・データベースとの配列相同性からでは新規ドメインが予測できないことが認識されるようになっている。そこで本研究では、対象蛋白質のアミノ酸配列に含まれた情報だけからドメイン領域(正確にはドメイン境界)を予測するニューラルネットワーク・機械学習の開発・改良を目的として研究を進め、以下の成果をあげた: (1)学習(トレーニング)データセットの準備を次の通り行った:PDB多ドメイン蛋白質からIdentity<30%で代表配列を選択し、SCOP及びCATH構造分類データベースのドメイン境界定義を基に、本研究で開発したアルゴリズムを用いて「構造ドメイン」の境界を同定した。「構造ドメイン」とは、独立した構造を形成するドメインを示す。学習には、構造ドメインの境界に座位するループ領域(DSSP定義)を「ドメインリンカー」と定義し、学習データセットを構築した。 (2)ニューラルネットワークの開発においては、基本アルゴリズムに従ってプログラムを構築した。その後、以前の研究で作製したテストデータを用いて、学習(トレーニング)における各種パラメータの認識率への影響を調べ、プログラムの性能を確認した。その結果、ドメインリンカー領域のランダム予測の的中率が10%程度であるのに対し、50〜60%の的中率が可能なことを示した。 (3)ニューラルネットワークとは別に、SVMlight(サポートベクターマシン)を用いて、学習における各種パラメータの認識率への影響を調べ、プログラムの学習効率を調べた。SVMlightを用いることで、以前の研究で開発したニューラルネットワークの1/5程度の学習時間で同等の学習効率が得られることを明らかにした。
|