研究課題/領域番号 |
17F17050
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
生命・健康・医療情報学
|
研究機関 | 東京大学 |
研究代表者 |
清水 謙多郎 東京大学, 大学院農学生命科学研究科(農学部), 教授 (80178970)
|
研究分担者 |
FANG CHUN 東京大学, 農学生命科学研究科, 外国人特別研究員
|
研究期間 (年度) |
2017-10-13 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2019年度: 300千円 (直接経費: 300千円)
2018年度: 1,100千円 (直接経費: 1,100千円)
2017年度: 800千円 (直接経費: 800千円)
|
キーワード | 天然変性 / タンパク質 / 深層学習 / MoRF / PSSM |
研究実績の概要 |
MoRFs(molecular recognition features)は、他分子との結合により、天然変性状態から非天然変性状態に遷移する領域で、細胞の分子相互作用ネットワークにおいて重要な役割を果たし、多くのヒトの疾患に関与する天然変性タンパク質(IDP)の重要な機能領域である。MoRFsの予測の大きな問題は、「明確な配列特徴がない」という点で、これに対しては、アミノ酸残基の特性に対して因子分析を適用するなど、特徴量の設計を工夫し、さらに深層学習を適用することで高感度の特徴の検出と高い予測精度の達成を目指した。 我々は、まず、深層学習のCNN(convolutional neural network)を用いて、天然変性領域のアミノ酸配列からMoRFsを同定するシステムを開発した。学習する特徴量としては、PSSMと13種のAA Indexを用いた。MoRFsを含む421チェインと負例データからデータセットに対してAUC値で0.778という、従来のシステムより高い予測結果を得た。 次に、集団学習を用いてMoRFsの予測精度のさらなる向上を図った。2つのCNNによる予測器(一つは、PSSMと22種の残基属性、もう一つは、PSSMと13種のAA indexを特徴量とする)、1次元CNNによる予測器とSVMによる予測器をあわせた4つの予測器による集団学習を行った。各予測器の結果は平均化によって集約した。特徴量は、どちらもPSSMと13種のAA indexを採用した。45個のMoRFsを含むテストデータセットと、膜タンパク質から生成した49個のMoRFsを含むテストデータセットを使用し性能評価を行ったところ、それぞれ、AUC値で0.795、0.776という結果であった。これらはどちらも、従来の手法に比べ、高い予測精度を達成している。本研究で開発したシステムは、Webで公開している。
|
現在までの達成度 (段落) |
令和元年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和元年度が最終年度であるため、記入しない。
|