2022 Fiscal Year Research-status Report
Development of an artificial intelligence-based drug discovery technique for mid-sized molecules targeting new protein–protein interaction
Project/Area Number |
22K15258
|
Research Institution | Keio University |
Principal Investigator |
清水 祐吾 慶應義塾大学, 薬学部(芝共立), 特任助教 (00809006)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 合成中分子 / 機械学習 / タンパク質間相互作用標的 / データベース / データ均衡化 / AI創薬 |
Outline of Annual Research Achievements |
本研究は合成中分子化合物を用いて、新規の標的を含む、タンパク質間相互作用(PPI)を標的とした創薬を効率的に進めるための計算機的手法、特に、人工知能(AI)技術を利用した高精度PPI阻害剤予測法の開発を目的としている。2022年度は研究実施計画の通り、まずDLiP、ChEMBL等の公共データベースの情報を用いたPPI標的の活性予測モデルの開発環境を構築した。ChEMBLデータベースから最新のPPI標的・化合物間の活性・非活性情報(IC50やKi等の数値)を網羅的に取得するプロトコルを作成、取得し、DLiPデータベースの情報と合わせて、標的毎の活性情報データセットを構築した。次に、これを学習データとして用い、複数の機械学習アルゴリズムを用いて化合物の活性あり・なしを予測する阻害活性予測モデルを標的毎に構築した。これにより予測モデルの精度評価の基準となるデータセット及び予測精度値を得ることができた。化合物の活性予測では学習データ(活性値)の少なさ及び偏り(非対称)が精度低下の原因となり問題となっている。本年度はこのうちデータセットのラベル非対称性による精度低下を解決するため、非対称の比率に合わせて学習時の重みを変える手法及び学習データの機械的な増幅手法によりデータセットラベルのバランスを調整する手法について検討を行い、それらの一定の有効性を確認した。しかしながら精度向上はこれだけでは充分とは言えない。そこで、学習データの少なさをカバーする手法としても有望と考えられる深層学習を用いたマルチタスク学習、転移学習によるさらなる精度向上への取り組みを進行中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
昨今の半導体不足の影響による計算機の納期の大幅な遅延に伴い、大規模計算を必要とする深層学習を用いた手法やパラメータ最適化の検討の進行が遅れている。
|
Strategy for Future Research Activity |
今後は、引き続き現在進行中の深層学習を用いたマルチタスク学習、転移学習によるさらなる精度向上に取り組む。また、学習データの少なさをカバーする手法について、豊富に存在する活性未知の化合物データを利用した半教師あり学習による検討も行う予定である。さらに、これらと並行して回帰モデルによる活性向上手法、PPI固有の特徴を利用した予測法等の開発、分子ドッキング等の構造ベース手法の併用の検討を行う。その後、仮想化合物ライブラリーによる化合物空間の拡大や阻害実験によるAIモデルの検証を行う予定である。
|
Causes of Carryover |
研究進捗の遅れによりクラウド計算の利用に伴う利用費が翌年度にずれ込むため。
|
Research Products
(4 results)