2015 Fiscal Year Research-status Report
水和水が媒介するタンパク質リガンド相互作用をデータマイニングで解明する
Project/Area Number |
25650050
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
水上 卓 北陸先端科学技術大学院大学, マテリアルサイエンス研究科, 助教 (50270955)
|
Project Period (FY) |
2013-04-01 – 2017-03-31
|
Keywords | 水和 / データマイニング / 機械学習 / 蛋白質 |
Outline of Annual Research Achievements |
本研究の目標は,タンパク質・リガンド結合系を対象に,データマイニング法により定義された水和水の様々な条件下での可視化(現象論)と,溶媒和自由エネルギー計算による水和効果の見積り(定量化)である.平成27年度は,以下の研究を行った. 1.水の振る舞いのデータマイニング系の改良による,特徴空間の多次元化と,それによる複数の水分子振る舞いクラスの同定;平成25-26年度に開発したマイニング系を用い水和水を単離した.特徴空間の構築の際に,マイニング系の改良とデータの詳細な検討から多次元化と特徴軸の選定を試み,水の振る舞いにおける複数のクラスを単離することが出来た.この単離した水和水クラスから,水和に関する各種の物理化学量を算出した. 2.タンパク質を用いた水の振る舞いのデータマイニングによる,物理的パラメータの算出; 水の振る舞いの複数クラスを,分子動力学を実行した時空間に投射し,そこから物理化学パラメータとして,実空間3次元分布,蛋白質表面からの動径分布関数,時空相関関数および中間散乱関数を算出した.それにより,複数クラスにそれぞれ特有の分布およびダイナミクスと,クラス間の相関が存在することが解った.また,これらの物理化学量は,蛋白質表面アミノ酸残基の疎水性・親水性と密接な関係があることが判明した. 3. リガンド結合蛋白質系MDシミュレーションによる水の振る舞いの混合分布モデルによるデータマイニング;リガンド結合蛋白質系のデータからGMMを抽出し,そのクラスタリングを行い,対象クラスの溶媒和自由エネルギー計算を行った.有意なデータを得るために,計算を継続した. 4. データマイニング手法の改良と拡張;物理パラメータ相関マップを算出する手法を,Lassoからガウス過程回帰モデルに変更し,物理過程の非線形性を考慮する手法を開発し,引き続き改良を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
平成27年度の研究成果において(1)特徴空間の多次元化と評価による,複数のクラスの発見に関しては,国際学会(ACCMS-8)に,(2)複数のクラスが関与している水和構造および,複数のクラス間の水の動的な振る舞いに関しては国際学会(Pacifichem2015)に発表を行った.これら2つの成果は計算された溶媒和自由エネルギーの解釈において重要な意味を持つ.またこれらの小分子によるデータマイニングの結果に関しては論文にまとめ,雑誌に投稿を行った. リガンド結合蛋白質の系に関しては,本来的に分子量が大きく,周囲を取り囲む水分子数もそれに従って大きい.そのため,現在のアルゴリズムによるマイニング法を直接的に適用するには,当初予測していたよりも計算量が大きくなり研究期間上に目的を完遂する困難が生じた.さらに今年度の研究において判明したのは,小分子量の蛋白質系によって学習された水和構造が当初予測していたよりも複雑で,水分子の振る舞いが複数のクラスがダイナミックに関係していることである.これらの結果は,溶媒和の研究において新しい知見ではあるが,同時に溶媒和自由エネルギーのマイニングに関して,正確な結果を見積もるためにさらに複雑な計算が大量に必要になることを意味する.このような研究上の課題展開の必要性から,研究期間の延長を行って事態に対応している.継続的にMD計算と従来の手法による解析を進めると共に,サイズの小さな小分子系で同等の成果が得られる方法を検討するとともに,マイニング技術的にいくつかの手法をもちいて問題を単純化し,研究の進展を図る.
|
Strategy for Future Research Activity |
現在問題になっているのは,1)リガンド結合蛋白質系の大きさに対して,水分子の振る舞いに関する1次データマイニングの処理速度が遅いこと,2)予備的な小分子量蛋白質からの結果により,蛋白質水和領域に複数の振る舞いのクラスが存在し,その間のダイナミクスに複雑な時空構造が存在しているため,溶媒和自由エネルギーのマイニングにおいて複雑な条件を想定しなければいけなくなったこと,である.このため,必要とされる計算量が大きくなり,研究期間内の研究遂行に困難が生じた. この問題の解決の為の方策としては,1)研究期間を延長し従来の手法で引き続き計算を行うとともに, 2)計算量の面で遂行可能なサイズの分子系において,同等の成果を得ること,3)いくつかの技術的な手法により計算量の問題をクリアすること,を検討した. 方策1)は従来の手法で並行的に作業をおこなう.方策2)は,i)ジアラニンなどの熱異性化をおこなう小分子において単一分子内で2つのサイトが近づいたり遠ざかったりする際の,サイトに挟まれた溶媒空間における水の振る舞いのデータマイニングと溶媒和自由エネルギーを探求する.またii)溶媒空間内に固定した複数の小分子(アミノ酸,イオンなど)を用い,その分子間の距離や配置の変化による,水分子の振る舞いと溶媒和エネルギーの変化を見積もることを検討する.以上の系においては,基本的に計算量の問題はクリアされるために,研究結果が得られることが期待できる.方策3)としては,複雑な相互作用を調査する際に,研究実績4で記載したLasso回帰やガウス過程回帰モデルを用いてクロスバリデーションと変数選択を実行し,注目すべき変数を減らすことによって,単純化と計算量の減少をねらう. 以上の対策によって,研究遂行を目指す.
|
Causes of Carryover |
ひきつづきデータマイニングの計算を平成28年度に行うこととしたため,次年度使用額が生じた
|
Expenditure Plan for Carryover Budget |
データマイニング計算において消耗品に使用する
|
Research Products
(4 results)