研究課題/領域番号 |
22K06112
|
研究機関 | 京都大学 |
研究代表者 |
松本 篤幸 京都大学, 医学研究科, 特定准教授 (00753906)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
キーワード | 分子動力学計算 / 親和性予測 / 深層学習 |
研究実績の概要 |
令和5年度は複数のタンパク質―化合物複合体についてMD計算を行うと共に、静的立体構造情報を入力にした親和性予測を行い、ベースライン性能の確認を行った。また、立体構造情報を入力とした親和性予測のための新規モデル構築を進めた。高精度な親和性予測モデルを得るために、近年急速に発展した自己教師あり学習を活用することとした。概要を以下に示す。 1.入力データ拡大及びモデル性能評価のため、複合体構造既知の複数のタンパク質―化合物の組み合わせについてドッキングシミュレーションによって複数のドッキングポーズを生成し、それら全てについてスーパーコンピュータ富岳上でMD計算を実施した。 2.立体構造を入力とした予測モデル性能のベースラインを得るため、公共データベースPDBbindから取得した静的な実験立体構造を入力にした活性予測モデルを構築した。用いるアーキテクチャーとして当初予定していた3D CNNから3次元グラフを入力とする3D GNNに変更にした。ベースラインモデルの性能は従来のタンパク質配列情報及びリガンドSMILES情報を入力とするchemical genomics approachと比較して精度が悪く、学習データの飛躍的拡大が必要であることが明らかになった。 3.立体構造情報の学習データ不足を補うために、自己教師あり学習を行うためのモデル構築を進めた。自己教師あり学習では入力データそれ自身から入力データの持つ特徴表現を獲得する枠組みを持ち、少量データから大量の学習データを得ることができる。本課題で構築しているモデルは3次元立体構造を入力に立体構造が持つ特徴表現を獲得する枠組みを持つ。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
MD計算により学習データの拡大を予定通り進めた。一方、ベースラインモデル評価の過程で立体構造既知複合体のみを学習対象をした場合、学習データ不足により期待通りの性能を達成できない恐れがあることが明らかになった。そこで学習データ生成に新たにドッキングシミュレーションを活用するとともに、令和5年度より著しい発展を見せた自己教師あり学習が可能なモデル構築を新たに進めた。以上のように方針変更を行ったが当初計画通りMDデータは拡大されており、予測モデル構築も概ね完了しているため、おおむね順調に進展していると判断される。
|
今後の研究の推進方策 |
3次元立体構造情報に基づいた自己教師あり学習が可能なモデル構築を完了し、実験構造並びに動的構造情報を用いたfine-tuningを行い、その性能を評価する。また動的立体構造情報拡大のためのMD simulationを引き続き実施する。また実用的なモデル構築のため立体構造情報に基づくモデルと従来のchemical genomics approachとの統合を図ることで、より高い精度を持つ予測モデル構築の検討を進める。
|
次年度使用額が生じた理由 |
当初生成されるMDデータ保存のためのストレージを準備する予定であったが、令和4年度でのデータ作成では既に準備済みの計算環境内のストレージで対応できたため次年度使用額が生じた。 令和6年度で拡大される動的情報データセットを保存するための、追加のストレージの購入費用として助成金を使用する。自己教師あり学習のためには最新のGPUを備えた高性能計算機が必要なため、その購入費用として助成金を使用する。また、最先端の研究を進めていく上で必要不可欠な他の研究者との情報交換のための費用として使用する。以上の研究活動を通じて得られた成果を国内外の学会並びに学術雑誌等を通じて社会に発信するための費用として使用する。
|