Project Area | Digitalization-driven Transformative Organic Synthesis (Digi-TOS) |
Project/Area Number |
21H05221
|
Research Category |
Grant-in-Aid for Transformative Research Areas (A)
|
Allocation Type | Single-year Grants |
Review Section |
Transformative Research Areas, Section (II)
|
Research Institution | Kyoto University |
Principal Investigator |
小島 諒介 京都大学, 医学研究科, 講師 (70807651)
|
Project Period (FY) |
2021-09-10 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥36,530,000 (Direct Cost: ¥28,100,000、Indirect Cost: ¥8,430,000)
Fiscal Year 2024: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
Fiscal Year 2023: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
Fiscal Year 2022: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
Fiscal Year 2021: ¥7,930,000 (Direct Cost: ¥6,100,000、Indirect Cost: ¥1,830,000)
|
Keywords | ケモインフォマティクス / 有機化学 / 機械学習 / 反応予測 / 逆合成経路探索 |
Outline of Research at the Start |
本研究では、実験研究者の知見を取り入れることで、現場で実際に利用可能なAI手法・技術の開発を目指す 我々は、これらの一連の技術をツールとして開発している。 これまでに、一般的な公共のデータベースなどを用いて反応予測や合成経路予測に関してこのツールの有用性を確認している。 しかし、実際の研究現場で利用するためには、実験条件の設定、フロー反応などの実験系への対応、実験データの数が少ない状況への対応といった拡張が必要である。 そこで、本研究全体を通しての学術的「問い」は「実現場への対応可能な化学者知識を考慮した機械学習手法および基盤の開発」を目指す。
|
Outline of Annual Research Achievements |
我々はこれまでに、大規模データベースを用いての反応予測および逆合成経路探索に取り組んできた。これらの結果から、典型的な反応に関してはよく予測できるものの、データベース中に少数の反応に関しては、予測性能が限定的であった。また、いくつかの予備的な検討により化学合成者の知見を入れることで、これらの予測性能の改善が可能であることがわかってきた。これらのことから、化学研究者とAI研究者が共同で、モデル構築を行うことで、より多様な反応に関して性能の高い予測器を構築可能であると考えた。また、従来の大規模データベースに関しては、触媒の定義などがあいまいであるなど、データベースの質についても問題が指摘されており、これらに関しても反応の専門家の意見を取り入れつつモデルの修正およびデータの追加を行うことで、より良いモデルと共に、より質の高いデータベースの構築が期待できる。 本年度では、昨年度までに行った既存のデータベースOpenReactionDatabaseおよび各研究拠点とのディスカッションの調査で得られたデータフォーマットをもとに、機械学習向けのデータベースの仕様を決定した。具体的には、前期で既存のデータベースの項目と有機化学研究者と共同で作成したデータベーススキーマの整合性を確認し、それらを統合したデータベースの構築を行った。後期には、構築した統合データベースからデータを抽出し、これらをもとに簡易的な機械学習モデルの構築を行い、今後の機械学習モデルのベースラインとなるモデルの構築を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画通り、機械学習に用いるデータセットのフォーマットの策定までを進めることに成功し、基本的な機械学習モデルの構築を行うことができた。 今後はこれらを用いて、化学実験・化学合成者の現場で活用できるモデル構築へとつなげていくことを目指す。
|
Strategy for Future Research Activity |
本年度では、昨年度までに行ったデータベースの設計をもとに、実際に機械学習向けのデータセットの構築と簡易評価を行う。より具体的には、既存のデータベースOpenReactionDatabaseのデータセットをもとにベンチマーク用のデータセットの構築を目指す。前期では既存のデータセットをもとに、既存手法のベースライン評価を行う。また、有機化学研究者と共同で作成したデータセットを用いた評価も簡易的に行っていく。後期には、構築した統合データベースから現段階で収集できているデータを抽出し、これらをもとに簡易的な機械学習モデルまでパイプラインの構築を行い、現時点でのベースラインとなるモデルの構築進める計画である。 また、適宜、他の実験を行う研究グループと共同研究を行い、本研究で構築した機械学習モデルの評価、および、実課題での有用性を示していく計画である。
|
Report
(2 results)
Research Products
(1 results)