データ駆動有機合成経路・反応予測モデルの構築

計画研究

研究領域	デジタル化による高度精密有機合成の新展開
研究課題/領域番号	21H05221
研究種目	学術変革領域研究(A)
配分区分	補助金
審査区分	学術変革領域研究区分(Ⅱ)
研究機関	京都大学
研究代表者	小島諒介京都大学, 医学研究科, 講師 (70807651)
研究期間 (年度)	2021-09-10 – 2026-03-31
研究課題ステータス	交付 (2025年度)
配分額 *注記	36,530千円 (直接経費: 28,100千円、間接経費: 8,430千円) 2025年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円) 2024年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円) 2023年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円) 2022年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円) 2021年度: 7,930千円 (直接経費: 6,100千円、間接経費: 1,830千円)
キーワード	ケモインフォマティクス / 有機化学 / 反応予測 / 逆合成経路探索 / 機械学習
研究開始時の研究の概要	本研究では、実験研究者の知見を取り入れることで、現場で実際に利用可能なＡＩ手法・技術の開発を目指す我々は、これらの一連の技術をツールとして開発している。これまでに、一般的な公共のデータベースなどを用いて反応予測や合成経路予測に関してこのツールの有用性を確認している。しかし、実際の研究現場で利用するためには、実験条件の設定、フロー反応などの実験系への対応、実験データの数が少ない状況への対応といった拡張が必要である。そこで、本研究全体を通しての学術的「問い」は「実現場への対応可能な化学者知識を考慮した機械学習手法および基盤の開発」を目指す。
研究実績の概要	我々はこれまでに、大規模データベースを用いての反応予測および逆合成経路探索に取り組んできた。これらの結果から、典型的な反応に関してはよく予測できるものの、データベース中に少数の反応に関しては、予測性能が限定的であった。また、いくつかの予備的な検討により化学合成者の知見を入れることで、これらの予測性能の改善が可能であることがわかってきた。これらのことから、化学研究者とＡＩ研究者が共同で、モデル構築を行うことで、より多様な反応に関して性能の高い予測器を構築可能であると考えた。また、従来の大規模データベースに関しては、触媒の定義などがあいまいであるなど、データベースの質についても問題が指摘されており、これらに関しても反応の専門家の意見を取り入れつつモデルの修正およびデータの追加を行うことで、より良いモデルと共に、より質の高いデータベースの構築が期待できる。本年度では、昨年度までに行ったデータベースの設計をもとに、実際に機械学習向けのデータセットの構築と簡易評価を行った。より具体的には、既存のデータベースOpenReactionDatabaseのデータセットをもとにベンチマーク用のデータセットの構築を行い，既存手法のベースライン評価を行った。また、有機化学研究者と共同で作成したデータセットを用いた評価を簡易的に行った。後期には、構築した統合データベースから現段階で収集できているデータを抽出し、これらをもとに簡易的な機械学習モデルまでパイプラインの構築を行い、現時点でのベースラインとなるモデルの構築を行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由計画通り、機械学習に用いるデータセットのフォーマットに従ったデータセットの構築を開始し，また，既存データセットを用いた基本的な機械学習モデルの構築と簡易的な評価を行うことができた。今後はこれらを用いて、実際の化学実験・化学合成者の現場で活用できるモデルとなるように，最新のデータセットを用いてモデルを更新し，従来のモデルと比較し，より本格的な評価へと進めていく予定である。加えて，ここで構築したモデルをより広範な予測が可能となるシステム構築へとつなげていくことを目指す。
今後の研究の推進方策	本年度では、昨年度までに行った予備的な評価をもとに，より大規模な評価とデータベースの更新に伴うモデルの更新と評価を行う計画である。より具体的には、既存のデータベースOpenReactionDatabaseのデータセットをもとに最新のデータを用いたベンチマーク用のデータセットの構築を目指す。前期では昨年度までに開発したモデル構築パイプラインを用いてベースラインの本格的な評価を行う。また、有機化学研究者と共同で作成したデータセットを用いた実際の評価を行う方法について検討を行う。後期には、構築した統合データベースから現段階で収集できているデータを抽出し、これらをもとに新たな機械学習モデルの提案を行い，ベースラインとなるモデルとの比較を行う計画である。

報告書

(3件)

研究成果
(5件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (4件) (うち招待講演 3件)

[雑誌論文] VGAE-MCTS: A New Molecular Generative Model Combining the Variational Graph Auto-Encoder and Monte Carlo Tree Search2023
- 著者名/発表者名
  Iwata Hiroaki、Nakai Taichi、Koyama Takuto、Matsumoto Shigeyuki、Kojima Ryosuke、Okuno Yasushi
- 雑誌名
  
  Journal of Chemical Information and Modeling
  
  巻: 63 号: 23 ページ: 7392-7400
- DOI
  10.1021/acs.jcim.3c01220
- 関連する報告書
  2023 実績報告書
- 査読あり / オープンアクセス
[学会発表] データ駆動型逆合成経路解析・反応予測基盤モデルの開発2024
- 著者名/発表者名
  小島諒介
- 学会等名
  日本化学会第104春季年会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 大規模グラフニューラルネットワークに基づく多様な医療関連データ解析2023
- 著者名/発表者名
  小島諒介
- 学会等名
  情報計算化学生物 (CBI)学会 2023年大会医療データAI解析実践フォーラム（2023年10月25日）
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 有機化学のための深層学習ベースのAI基盤と基盤モデル2023
- 著者名/発表者名
  小島諒介
- 学会等名
  第6回近化若手フォーラム
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 多様な医療関連データへのグラフニューラルネットワークの応用2023
- 著者名/発表者名
  小島諒介
- 学会等名
  CBI学会2022年大会医療データAI解析実践フォーラム
- 関連する報告書
  2022 実績報告書

データ駆動有機合成経路・反応予測モデルの構築

研究代表者

小島 諒介 京都大学, 医学研究科, 講師 (70807651)

36,530千円 (直接経費: 28,100千円、間接経費: 8,430千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] VGAE-MCTS: A New Molecular Generative Model Combining the Variational Graph Auto-Encoder and Monte Carlo Tree Search2023

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] データ駆動型逆合成経路解析・反応予測基盤モデルの開発2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 大規模グラフニューラルネットワークに基づく多様な医療関連データ解析2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 有機化学のための深層学習ベースのAI基盤と基盤モデル2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 多様な医療関連データへのグラフニューラルネットワークの応用2023

著者名/発表者名

学会等名

関連する報告書

小島諒介京都大学, 医学研究科, 講師 (70807651)