2021 Fiscal Year Annual Research Report
Project Area | Digitalization-driven Transformative Organic Synthesis (Digi-TOS) |
Project/Area Number |
21H05221
|
Research Institution | Kyoto University |
Principal Investigator |
小島 諒介 京都大学, 医学研究科, 講師 (70807651)
|
Project Period (FY) |
2021-09-10 – 2026-03-31
|
Keywords | ケモインフォマティクス / 機械学習 / 有機化学 / 反応予測 / 逆合成経路探索 |
Outline of Annual Research Achievements |
我々はこれまでに、公共の大規模データベースを用いての反応予測および逆合成経路探索に取り組んできた。これらの結果から、典型的な反応に関してはよく予測できるものの、データベース中に少数の反応に関しては、予測性能が限定的であった。また、いくつかの予備的な検討により化学合成者の知見を入れることで、これらの予測性能の改善が可能であることがわかってきた。これらのことから、化学研究者とAI研究者が共同で、モデル構築を行うことで、より多様な反応に関して性能の高い予測器を構築可能であると考えた。また、従来の大規模データベースに関しては、触媒の定義などがあいまいであるなど、データベースの質についても問題が指摘されており、これらに関しても反応の専門家の意見を取り入れつつモデルの修正およびデータの追加を行うことで、より良いモデルと共に、より質の高いデータベースの構築が期待できる。 本年度では、既存の化学反応のデータベースであるOpenReactionDatabaseおよび各研究拠点とのディスカッションを行い、機械学習に用いるデータセットおよびデータベースのデータフォーマットの仕様の策定をおこなう。具体的には、既存のデータベースの項目の調査を行い、それらを統合したデータベースの設計を行う。加えて、機械学習モデルの調査も行い、機械学習モデルのベースラインとなるモデルの検討を行った。 機械学習モデルとしては、機械学習の基本的なモデルに加え、深層学習を用いた大規模なデータベースに対応できる手法も合わせて検討をおこなう。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画通りにデータベースのフォーマットの調査と化学実験の専門家と共に、データフォーマットの策定に向けて議論を行い、概ねの使用策定を決定できた。今後はこれらを用いて、実際に機械学習のためのデータセットの作成およびモデル構築へとつなげていくことを目指す。
|
Strategy for Future Research Activity |
今後の方針は、今年度に行った既存のデータベースOpenReactionDatabaseおよび各研究拠点とのディスカッションの調査で得られたデータフォーマットをもとに、機械学習向けのデータベースの仕様を決定する計画である。具体的には、前期で既存のデータベースの項目と有機化学研究者と共同で作成したデータベーススキーマの整合性を確認し、それらを統合したデータベースの構築を行っていく。また、後期には、構築した統合データベースからデータを抽出し、これらをもとに簡易的な機械学習モデルの構築を行い、今後の機械学習モデルのベースラインとなるモデルの構築まで進める計画である。
|