研究領域 | デジタル化による高度精密有機合成の新展開 |
研究課題/領域番号 |
21H05221
|
研究機関 | 京都大学 |
研究代表者 |
小島 諒介 京都大学, 医学研究科, 講師 (70807651)
|
研究期間 (年度) |
2021-09-10 – 2026-03-31
|
キーワード | ケモインフォマティクス / 有機化学 / 反応予測 / 逆合成経路探索 |
研究実績の概要 |
我々はこれまでに、大規模データベースを用いての反応予測および逆合成経路探索に取り組んできた。これらの結果から、典型的な反応に関してはよく予測できるものの、データベース中に少数の反応に関しては、予測性能が限定的であった。また、いくつかの予備的な検討により化学合成者の知見を入れることで、これらの予測性能の改善が可能であることがわかってきた。これらのことから、化学研究者とAI研究者が共同で、モデル構築を行うことで、より多様な反応に関して性能の高い予測器を構築可能であると考えた。また、従来の大規模データベースに関しては、触媒の定義などがあいまいであるなど、データベースの質についても問題が指摘されており、これらに関しても反応の専門家の意見を取り入れつつモデルの修正およびデータの追加を行うことで、より良いモデルと共に、より質の高いデータベースの構築が期待できる。本年度では、昨年度までに行ったデータベースの設計をもとに、実際に機械学習向けのデータセットの構築と簡易評価を行った。 より具体的には、既存のデータベースOpenReactionDatabaseのデータセットをもとにベンチマーク用のデータセットの構築を行い,既存手法のベースライン評価を行った。また、有機化学研究者と共同で作成したデータセットを用いた評価を簡易的に行った。後期には、構築した統合データベースから現段階で収集できているデータを抽出し、これらをもとに簡易的な機械学習モデルまでパイプラインの構築を行い、現時点でのベースラインとなるモデルの構築を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画通り、機械学習に用いるデータセットのフォーマットに従ったデータセットの構築を開始し,また,既存データセットを用いた基本的な機械学習モデルの構築と簡易的な評価を行うことができた。今後はこれらを用いて、実際の化学実験・化学合成者の現場で活用できるモデルとなるように,最新のデータセットを用いてモデルを更新し,従来のモデルと比較し,より本格的な評価へと進めていく予定である。加えて,ここで構築したモデルをより広範な予測が可能となるシステム構築へとつなげていくことを目指す。
|
今後の研究の推進方策 |
本年度では、昨年度までに行った予備的な評価をもとに,より大規模な評価とデータベースの更新に伴うモデルの更新と評価を行う計画である。 より具体的には、既存のデータベースOpenReactionDatabaseのデータセットをもとに最新のデータを用いたベンチマーク用のデータセットの構築を目指す。前期では昨年度までに開発したモデル構築パイプラインを用いてベースラインの本格的な評価を行う。また、有機化学研究者と共同で作成したデータセットを用いた実際の評価を行う方法について検討を行う。後期には、構築した統合データベースから現段階で収集できているデータを抽出し、これらをもとに新たな機械学習モデルの提案を行い,ベースラインとなるモデルとの比較を行う計画である。
|