研究課題/領域番号 |
20K19917
|
研究機関 | 東京工業大学 |
研究代表者 |
柳澤 渓甫 東京工業大学, 情報理工学院, 助教 (40866646)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | リガンド結合部位予測 / 隠された結合部位 / マルチタスク深層学習 / 畳み込みニューラルネットワーク / 網羅的予測 |
研究実績の概要 |
本研究は、タンパク質立体構造を入力とするマルチタスク深層学習を行い、低計算コスト・高精度の隠された (cryptic) 結合部位予測手法を開発し、生体内の分子間相互作用がまとめられたKEGG PATHWAYにマッピングすることで、薬剤標的タンパク質の選択に有用な情報を視覚的に提供するものである。 <現在までの進捗状況> 2020年度は深層学習を用いたcryptic結合残基の予測モデルの構築を開始し、全体としてはおおむね順調に進展している。まず、【Step 1 深層学習による予測手法の開発】として、先行研究にて集められた92種類のタンパク質立体構造に基づいて、3次元畳み込みニューラルネットワーク (3D-CNN) を用いたcryptic結合残基の予測を実施した。テストデータに対するROC曲線下面積 AUROC は0.718が得られた。【Step 2 マルチタスク学習の導入】として、17,000件以上のタンパク質-化合物結合立体構造がまとめられているscPDBを用いたマルチタスク学習を実施することで更なる精度向上を目指している。併せて、【Step 3 MDシミュレーションとの統合】のために必要なMDシミュレーションを予定に先んじて開始した。この際、水溶媒と併せてベンゼン等のプローブ分子を共溶媒として混ぜる共溶媒MD手法を用いることでタンパク質の構造変化を誘発させた。 <2021年度の研究推進方策> 2021年度は【Step 2 マルチタスク学習の導入】と【Step 3 MDシミュレーションとの統合】をさらに進め、AUROC 0.75-0.80を目指す。また、結合部位は一般に複数のタンパク質残基によって構成されるため、【Step 4 Cryptic結合残基クラスタリング】により、不適切な予測結果を除外、偽陽性の削減を目指す。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2020年度の研究実施計画では、【Step 1 深層学習による予測手法の開発】と【Step 2 マルチタスク学習の導入】を予定していた。深層学習についてはやはりデータ数を理由とした学習の難しさがあり難航している一方、【Step 3 MDシミュレーションとの統合】に関する計算がすでに開始されているなど、当初の計画以上に進展している部分もあり、全体としてはおおむね順調に進展していると考えられる。 【Step 1 深層学習による予測手法の開発】先行研究にて集められた92種類のタンパク質立体構造に基づいて、3次元畳み込みニューラルネットワーク (3D-CNN) を用いたcryptic結合残基の予測を実施した。テストデータに対する予測精度(ROC曲線下面積 AUROC)は0.718が得られた。 【Step 2 マルチタスク学習の導入】3次元空間におけるタンパク質原子の立体的な配置の多様性に比べ、実際に用いているタンパク質の数が少ないため、17,000件以上のタンパク質-化合物結合立体構造がまとめられているscPDBを用いたマルチタスク学習を実施することで更なる精度向上を目指している。現在はcryptic結合残基予測と化合物結合部位予測の学習バランスの調整等を進めている。この点は当初想定より多少遅延している。 【Step 3 MDシミュレーションとの統合】MDシミュレーションは相当量の計算時間を必要とするため、予定に先立ってMDシミュレーションを開始した。この際、水溶媒と併せてベンゼン等のプローブ分子を共溶媒として混ぜる共溶媒MD手法を用いることでタンパク質の構造変化を誘発させることも行っており、これにより構造変化のしやすさを目的変数として学習する以外に、多少のタンパク質立体構造変化をしても同一視するような3D畳み込みニューラルネットワークモデルを構築することが可能になると考えられる。
|
今後の研究の推進方策 |
当初の2021年度の研究実施計画では、【Step 3 MDシミュレーションとの統合】および【Step 4 Cryptic結合残基クラスタリング】の前半を実施する予定であった。現在までの進捗状況に合わせ、【Step 2 マルチタスク学習の導入】、【Step 3 MDシミュレーションとの統合】、および【Step 4 Cryptic結合残基クラスタリング】を今年度の実施項目とする。以下の方策を達成することで、ROC曲線下面積AUC 0.80 を目指す。 【Step 2 マルチタスク学習の導入】 cryptic結合残基予測と化合物結合部位予測ではデータ件数が大きく異なるため、学習データ1件1件を同等に扱うと化合物結合部位予測のための予測モデルが作成されてしまう。このような問題に対し、cryptic結合残基予測に対する重みづけを行う、あるいは化合物結合部位予測を事前学習として用いる、という2つの方策に基づいたマルチタスク学習を実施し、その効果を検討する。 【Step 3 MDシミュレーションとの統合】 2020年度までに15タンパク質、延べ数百usのシミュレーション結果が得られている。この結果をもとに、①構造柔軟性予測モデルをマルチタスク学習として導入する、②構造変化に頑健な3次元畳み込みニューラルネットワークを構築する、という2つの方策を実施する。 【Step 4 Cryptic結合残基クラスタリング】ここまでの予測結果は、周辺残基の予測結果とは関係なく、周囲のタンパク質立体構造からある残基がcryptic結合残基であるかどうかを予測していた。しかし、結合部位は一般に複数のタンパク質残基によって構成されるため、cryptic結合残基である、と予測された複数の残基の立体位置関係をクラスタリングすることで、孤立したcryptic結合残基として予測された残基を除外、偽陽性の削減を目指す。
|