研究課題/領域番号 |
22K06112
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分43020:構造生物化学関連
|
研究機関 | 京都大学 |
研究代表者 |
松本 篤幸 京都大学, 医学研究科, 特定准教授 (00753906)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2024年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2023年度: 260千円 (直接経費: 200千円、間接経費: 60千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 分子動力学計算 / 親和性予測 / 深層学習 / 結合親和性予測 / 低分子化合物 |
研究開始時の研究の概要 |
本研究ではタンパク質と低分子化合物の複合体立体構造に基づいてそれらの結合の強さを推定するためのAIモデルの構築を目的としている。結合の強さは分子の溶液中の動的振る舞いによって規定されている。しかしそれらの関係性を人間が厳密に記述することは困難である。そこでタンパク質―化合物の結合親和性と分子動力学計算によって得たそれらの複合体の動的情報との間を深層学習技術によって橋渡しするAIモデルを構築する。さらに発展的な取り組みとして、構築したAIモデルを利用して親和性情報のみを手掛かりに複合体立体構造を推定する。
|
研究実績の概要 |
令和5年度は複数のタンパク質―化合物複合体についてMD計算を行うと共に、静的立体構造情報を入力にした親和性予測を行い、ベースライン性能の確認を行った。また、立体構造情報を入力とした親和性予測のための新規モデル構築を進めた。高精度な親和性予測モデルを得るために、近年急速に発展した自己教師あり学習を活用することとした。概要を以下に示す。 1.入力データ拡大及びモデル性能評価のため、複合体構造既知の複数のタンパク質―化合物の組み合わせについてドッキングシミュレーションによって複数のドッキングポーズを生成し、それら全てについてスーパーコンピュータ富岳上でMD計算を実施した。 2.立体構造を入力とした予測モデル性能のベースラインを得るため、公共データベースPDBbindから取得した静的な実験立体構造を入力にした活性予測モデルを構築した。用いるアーキテクチャーとして当初予定していた3D CNNから3次元グラフを入力とする3D GNNに変更にした。ベースラインモデルの性能は従来のタンパク質配列情報及びリガンドSMILES情報を入力とするchemical genomics approachと比較して精度が悪く、学習データの飛躍的拡大が必要であることが明らかになった。 3.立体構造情報の学習データ不足を補うために、自己教師あり学習を行うためのモデル構築を進めた。自己教師あり学習では入力データそれ自身から入力データの持つ特徴表現を獲得する枠組みを持ち、少量データから大量の学習データを得ることができる。本課題で構築しているモデルは3次元立体構造を入力に立体構造が持つ特徴表現を獲得する枠組みを持つ。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
MD計算により学習データの拡大を予定通り進めた。一方、ベースラインモデル評価の過程で立体構造既知複合体のみを学習対象をした場合、学習データ不足により期待通りの性能を達成できない恐れがあることが明らかになった。そこで学習データ生成に新たにドッキングシミュレーションを活用するとともに、令和5年度より著しい発展を見せた自己教師あり学習が可能なモデル構築を新たに進めた。以上のように方針変更を行ったが当初計画通りMDデータは拡大されており、予測モデル構築も概ね完了しているため、おおむね順調に進展していると判断される。
|
今後の研究の推進方策 |
3次元立体構造情報に基づいた自己教師あり学習が可能なモデル構築を完了し、実験構造並びに動的構造情報を用いたfine-tuningを行い、その性能を評価する。また動的立体構造情報拡大のためのMD simulationを引き続き実施する。また実用的なモデル構築のため立体構造情報に基づくモデルと従来のchemical genomics approachとの統合を図ることで、より高い精度を持つ予測モデル構築の検討を進める。
|