研究課題/領域番号 |
20H02747
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
矢田 陽 国立研究開発法人産業技術総合研究所, 材料・化学領域, 主任研究員 (70619965)
|
研究分担者 |
椿 真史 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80803874)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 機械学習 / 転移学習 / 有機合成 / 触媒 |
研究実績の概要 |
人工知能(AI)技術を活用するためには一般的には大量のデータが必要である。しかし、実験化学においてはコストや時間が掛かる実験を実施しなければデータが収集できないため、AIをいかに活用するかは重要な課題である。特に、触媒開発や反応開発等の新しい分子の創成が要求される分野では、少数のデータでいかに予測性能の高いモデルが構築できるかが重要となる。本研究は、有機化学や触媒化学分野において、少数データに対して予測性能の高い機械学習モデルを構築するための新しい方法論の構築を目指すものである。 昨年度は、C、H、O、N、Fの5つの原子で構成される約14万個の有機分子についての構造最適化した座標と、内部エネルギーやHOMO/LUMOレベルなどの12種類のDFT計算値が格納されているQM9データセットを用いた転移学習手法の開発に成功したが、本データセットに含まれない元素種を有する有機化合物は適用できない課題があった。そこで今年度は、転移学習に利用できる有機化合物の拡張を目指して、量子化学計算によるデータベースの拡張に取り組んだ。具体的には3価のリン原子を含む有機化合物で市販されているものを調査し、それらのリスト(約1000化合物)を作成した。また、全ての3価のリン原子に酸素2重結合または硫黄二重結合を付与して、5価のリン化合物を人工的に発生させた。これら3価リン化合物、5価リン化合物の約3000化合物全てについて量子化学計算(構造最適化と振動解析)を実施した。多くの化合物で量子化学計算はすでに完了したが、独自の有機分子データベースの構築が完了しつつある。以上の成果は、さまざまな有機合成反応や触媒反応の収率等の予測に適用可能な技術であり、本研究代表者が目指す触媒の自動発見に向けて大きく前進するものであると位置付けられる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度は、転移学習に利用できる有機化合物の拡張を目指して化合物データベースの構築に注力した。特に、均一系触媒で極めて重要な役割を果たすリン原子を含む化合物についてのデータベース構築が進んだことは、極めて重要である。一部のリン化合物では計算途中でエラーが発生するなどが見られたため再計算を進める必要があるが、次年度以降には全ての量子化学計算が終了する見込みであり、触媒設計のためのデータベースの拡張を着実に進めることができている。今年度に得られた成果は、次年度以降の研究開発を進める上で重要な基盤技術であり、研究開始当初の計画に通り順調に研究が進んでいることから、「概ね順調に進展している」と判断した。
|
今後の研究の推進方策 |
最終年度はまず、これまでに引き続いて有機分子データベースの拡張に取り組んでいく。量子化学計算が未完了のリン化合物についてまず完了させると共に、有機合成でよく用いられる元素を含む化合物(ケイ素やホウ素など)についても量子化学計算を進めてデータベースの拡張に取り組む。また、外部リソースのデータセットの調査を進め、それらによるデータ拡張についても検討を進め、オリジナルなデータセット構築を目指す。さらに、研究計画に従って、有機分子の自動設計のための分子構造発生技術の導入に取り組む。これと転移学習による予測モデル構築と連携させて、触媒分子の自動設計・最適化に取り組む。本技術の有用性を調べるために、複数の触媒反応をデータセットとして検討を進める予定である。
|