2021 Fiscal Year Annual Research Report
多様な分子構造の自動設計と有機合成反応の新規表現開発
Project Area | Digitalization-driven Transformative Organic Synthesis (Digi-TOS) |
Project/Area Number |
21H05220
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
Project Period (FY) |
2021-09-10 – 2026-03-31
|
Keywords | 化学情報学 / 分子構造生成 / 記述子開発 |
Outline of Annual Research Achievements |
本研究課題は2つのテーマを目的としている:(テーマ1)多様な分子構造の自動設計と(テーマ2)有機合成反応の新規表現開発。今年度の実績として、(テーマ1)では既往の深層学習モデルの特徴を定量的に調査した。特に、言語モデルを利用した深層学習タイプ、フラグメントを組み合わせるタイプ、類縁体のみを生成するタイプの構造生成器を用いて、ChEMBLデータベースに登録のある特定のマクロ分子に対して活性を示す化合物データセットを複数準備した。準備したデータセットそれぞれをトレーニング・テストデータにランダムに分割し、トレーニングデータのみの情報を用いて、仮想活性化合物を生成し定量的に比較検証した。距離としては化学空間における生成分子の分布とトレーニングデータセットへの類似性を用いた。結果としてLSTMを利用した単純な言語モデルが、生成分子の構造多様性と活性分子への類似性を調節でき、柔軟なモデルであることがわかった。(テーマ2)では、反応に関与する化合物の分子構造(グラフ構造)から反応の収率を予測するニューラルネットワークモデル構築スキームを考案した。C-Nクロスカップリングのハイスループットデータに対する後方公的な検証を行い、分子構造の電子的・立体的な特徴を記述子として用いた予測モデルと同等もしくはデータセットによってはそれ以上の精度で収率を予測することができるモデルを構築できた。構造式という分子構造のグラフ表現でも対象によっては精度が高い予測モデルを構築できることを実証した点に新規性があると考える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
構造生成器を用いて実際にコンピュータ上で分子構造を生成し、評価した結果から、言語モデルを利用する方針を決めることができたため。また、C-Nクロスカップリングのハイスループットデータに対するRetrospectiveな検証から、構造式という分子構造のグラフ表現でも対象によっては精度が高い予測モデルを構築できることが判明した。そのため、まずは引き続き構造式が予測する能力の調査を深めて行きたい。
|
Strategy for Future Research Activity |
2022年度は(テーマ2)有機合成反応の新規表現開発について注力したい。特に、ハイスループット実験の結果としての公開データセットを利用したエナンチオ選択性予測モデルの評価を行うことで最適な記述子(反応表現)を特定する。(テーマ1)分子構造設計に関しては、既存の手法である仮想スクリーニングの実施と現状ではLSTMモデルを利用した生成モデルを実際のアプリケーションとして共同研究を行なっている実験化学の先生方からのフィードバックをもとにブラッシュアップする予定である。
|
Research Products
(2 results)