2023 Fiscal Year Annual Research Report
Development of Chemical Structure Generation Method Based on Three-dimensional Molecular Representation
Project/Area Number |
20K19922
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 化学情報学 |
Outline of Annual Research Achievements |
研究目的は、「分子構造の3次元情報を取り入れた分子設計手法を確立すること」であり、昨年度から引き続き、解釈可能な数式を出力するシンボリック回帰モデルの汎化性向上に関する研究を行った。具体的には、式の出力値が発散することを防ぐ仕組みと、できるだけ滑らかな回帰面を構築する仕組みとを取り入れたことで、活性予測モデルの精度が従前手法と比較して大きく向上した。続いて、計画に基づき「2次元と3次元表現を組み合わせた」表現方法の検討と分子設計を行うために、ChEMBLデータベースに含まれる人間を対象とした6種類の多様なマクロ分子に対して化合物の活性値予測を行なった。モデル構築には、分子構造の2次元と3次元表現を組み合わせたモデルを考案する予定であったが、上記ターゲットに対してのデータを用いて、2次元記述子の2種類(ECFP、similarity profile)、3次元表現である3D similarity profile (3DSP) を利用したモデルの精度を比較検証した結果、3次元表現を予測モデルとして用いる合理的な理由を見出すことができなかった。3次元表現を利用した場合に精度が向上するためには、ある程度の立体配座としての類似性が3DSPの参照化合物には必要という仮定に基づき、テスト化合物毎に局所モデルを作ったが、予測精度と適用範囲ともに既存モデルから低下した。つまり高活性化合物設計のためには、構造式と活性モデルに基づく設計が合理的であるとの結果となった。この結果の妥当性を評価するため、異なる大規模データを対象とした物性予測モデルを様々な分子表現と立体配座を用いて構築し、精度を比較した結果、2次元表現の優位性が確認された。したがって、分子構造の3次元表現を導入した分子設計としては、さらなる3次元表現の探索もしくは機械学習モデル以外の評価方法と組み合わせる必要があると考える。
|