• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

深層学習技術を用いた動的情報からの化合物ータンパク質結合親和性の抽出

Research Project

Project/Area Number 22K06112
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 43020:Structural biochemistry-related
Research InstitutionKyoto University

Principal Investigator

松本 篤幸  京都大学, 医学研究科, 特定准教授 (00753906)

Project Period (FY) 2022-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2024: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2023: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords分子動力学計算 / 親和性予測 / 深層学習 / 結合親和性予測 / 低分子化合物
Outline of Research at the Start

本研究ではタンパク質と低分子化合物の複合体立体構造に基づいてそれらの結合の強さを推定するためのAIモデルの構築を目的としている。結合の強さは分子の溶液中の動的振る舞いによって規定されている。しかしそれらの関係性を人間が厳密に記述することは困難である。そこでタンパク質―化合物の結合親和性と分子動力学計算によって得たそれらの複合体の動的情報との間を深層学習技術によって橋渡しするAIモデルを構築する。さらに発展的な取り組みとして、構築したAIモデルを利用して親和性情報のみを手掛かりに複合体立体構造を推定する。

Outline of Annual Research Achievements

令和5年度は複数のタンパク質―化合物複合体についてMD計算を行うと共に、静的立体構造情報を入力にした親和性予測を行い、ベースライン性能の確認を行った。また、立体構造情報を入力とした親和性予測のための新規モデル構築を進めた。高精度な親和性予測モデルを得るために、近年急速に発展した自己教師あり学習を活用することとした。概要を以下に示す。
1.入力データ拡大及びモデル性能評価のため、複合体構造既知の複数のタンパク質―化合物の組み合わせについてドッキングシミュレーションによって複数のドッキングポーズを生成し、それら全てについてスーパーコンピュータ富岳上でMD計算を実施した。
2.立体構造を入力とした予測モデル性能のベースラインを得るため、公共データベースPDBbindから取得した静的な実験立体構造を入力にした活性予測モデルを構築した。用いるアーキテクチャーとして当初予定していた3D CNNから3次元グラフを入力とする3D GNNに変更にした。ベースラインモデルの性能は従来のタンパク質配列情報及びリガンドSMILES情報を入力とするchemical genomics approachと比較して精度が悪く、学習データの飛躍的拡大が必要であることが明らかになった。
3.立体構造情報の学習データ不足を補うために、自己教師あり学習を行うためのモデル構築を進めた。自己教師あり学習では入力データそれ自身から入力データの持つ特徴表現を獲得する枠組みを持ち、少量データから大量の学習データを得ることができる。本課題で構築しているモデルは3次元立体構造を入力に立体構造が持つ特徴表現を獲得する枠組みを持つ。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

MD計算により学習データの拡大を予定通り進めた。一方、ベースラインモデル評価の過程で立体構造既知複合体のみを学習対象をした場合、学習データ不足により期待通りの性能を達成できない恐れがあることが明らかになった。そこで学習データ生成に新たにドッキングシミュレーションを活用するとともに、令和5年度より著しい発展を見せた自己教師あり学習が可能なモデル構築を新たに進めた。以上のように方針変更を行ったが当初計画通りMDデータは拡大されており、予測モデル構築も概ね完了しているため、おおむね順調に進展していると判断される。

Strategy for Future Research Activity

3次元立体構造情報に基づいた自己教師あり学習が可能なモデル構築を完了し、実験構造並びに動的構造情報を用いたfine-tuningを行い、その性能を評価する。また動的立体構造情報拡大のためのMD simulationを引き続き実施する。また実用的なモデル構築のため立体構造情報に基づくモデルと従来のchemical genomics approachとの統合を図ることで、より高い精度を持つ予測モデル構築の検討を進める。

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (1 results)

All 2022

All Presentation (1 results) (of which Invited: 1 results)

  • [Presentation] Extracting protein dynamics from experimental cryo-EM maps using a machine learning technique combining with MdD simulations2022

    • Author(s)
      Shigeyuki Matsumoto
    • Organizer
      第60回日本生物物理学会年会
    • Related Report
      2022 Research-status Report
    • Invited

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi