2023 Fiscal Year Research-status Report
Development of an artificial intelligence-based drug discovery technique for mid-sized molecules targeting new protein–protein interaction
Project/Area Number |
22K15258
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
清水 祐吾 国立研究開発法人理化学研究所, 計算科学研究センター, 研究員 (00809006)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 合成中分子 / 機械学習 / 深層学習 / タンパク質間相互作用標的 / データベース / AI創薬 / PPI阻害 / 分子ドッキング |
Outline of Annual Research Achievements |
2023年度は主に(1)学習データの少なさによる精度低下の改善手法、(2)活性向上のための予測手法、(3)予測根拠の可視化手法の3点について開発・検討を行った。 (1)昨年度公共データベースDLiP・ChEMBLから構築した中分子化合物・活性情報データベースに対し、分子記述子を特徴量に用いたディープニューラルネットワークや分子構造をグラフとして扱うグラフニューラルネットワーク等の深層学習を用いた活性予測モデル(活性あり・なしの分類モデル)の構築を行った。これらのモデルについて、学習データの少なさによる精度低下を解決するため、2つの方法を検討した。1つは複数の標的の学習を同時に行う手法(マルチタスク学習)、もう1つは豊富に存在する活性未知の化合物データを利用した手法(半教師あり学習)であり、これらが有効となる条件の解析を行った。 (2) 1つの閾値での分類モデルによる活性予測では活性の強さが予測に反映されにくいという問題があるため、回帰モデル(=活性値そのものを学習)や活性の強さ別分類モデルによる予測手法を構築し、その精度を検証した。タンパク質結晶構造情報が利用できる標的に対しては、分子ドッキングによる構造ベース創薬(SBDD)手法の併用も検討した。 (3)新規阻害化合物を化合物ライブラリー等から探索するにあたり、活性予測した化合物群から実験に用いる化合物を選択する際、化合物の各分子記述子・構造が活性予測へどのように寄与しているかを定量・可視化し、確認することが重要であると考えられる。そこでSHAP値及びIntegrated gradientsによる予測根拠の定量・可視化を実装し、確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
昨年度の進捗遅延及び研究機関の変更による環境変化に伴い引き続き進捗状況はやや遅れている状況である。
|
Strategy for Future Research Activity |
今後はまず、PPI阻害の活性強度予測に寄与する3次元記述子やPPI特徴記述子の調査及び開発を行う。次に、仮想化合物ライブラリーの利用による化合物空間の拡張を行う。この際、医薬品特性(PAINSフィルター等)、活性向上、新規性、合成可能性等を加味した上で有望な化合物を選択する方法を開発する。また、反復スクリーニングによる実験的検証を行う際の効率的な化合物選択手法の検討も行う予定である。
|
Causes of Carryover |
研究進捗の遅れに伴い予算の使用も遅れが生じている。また、現有のソフトウェアの使用によってソフトウェアのライセンス料にかかる費用を節約できているため、次年度使用額が生じている。遅延分は次年度に予定分を使用、節約分は大規模計算用計算資源の獲得等に活用する予定である。また、元々次年度利用予定であった分については進捗の遅れを解消させつつ当初の予定通り活用する。
|