2020 Fiscal Year Research-status Report
Development of Chemical Structure Generation Method Based on Three-dimensional Molecular Representation
Project/Area Number |
20K19922
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 定量的構造活性相関 / 分子表現 / 構造記述子 |
Outline of Annual Research Achievements |
本研究における目的の一つは、「必要性を考慮した上で、分子構造の三次元情報を取り入れた分子設計手法を確立すること」であり、今年度は必要性検証と、複数の手法で分子構造生成器の実装を行った。必要性検証の部分では、分子構造の2次元情報を表現した記述子と3次元情報を表現した記述子、2種類の記述子の比較を、予測精度という観点で行った。ChEMBLデータベースに含まれる10個マクロ分子に対しての阻害活性(pKi)を低分子化合物の分子構造から予測した。予測精度をモデル構築に使用した化合物群、予測対象化合物群の多様性の観点から評価することで、データセットの性質(多様性)とモデルの精度との関係を明確にした。阻害定数の予測に関しては、2次元情報と3次元情報での予測精度に有意な差は見られず、評価モデルとしては分子の2次元構造のみで十分であった。一方で、活性値予測ではなく「活性があるかないかを予測する課題」に対しては、3次元分子表現の2次元分子表現に対しての優位性を複数のターゲットにおいて確認できた。特にトレーニングに含まれている化合物と骨格が異なる化合物を探索する際に有効であるという結果が得られ、モデルに基づく、合理的な活性化合物の設計には、3次元分子表現が有用であること、活性値の予測にはどちらの分子表現であっても問題ないことの2つが結論となる。分子構造生成器では、Matched molecular pair に基づく手法、Recurrent neural networkによるSMILES(文字列)生成モデル、分子フラグメントを組み合わせる手法、の3種類の構造生成器を実装した。動作確認や生成された分子構造の特徴を定性評価した。今後は定量評価を行うこと、研究ももう一つの目的である「統合モデルの構築」について取り組む予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的の一つである、「定量的構造活性(物性)相関(QSAR/QSPR)モデルや深層学習に基づく分子設計の適用範囲の明確化」に取り組み、分子構造から阻害定数(pKi)を予測するモデルでは、分子構造の3次元情報は2次元情報と比較して優位性が存在しないことを明らかにした。また、分子構造生成器として、Matched molecular pair に基づく手法、Recurrent neural networkによるSMILES(文字列)生成モデル、分子フラグメントを組み合わせる手法、の3種類の構造生成器を実装した。
|
Strategy for Future Research Activity |
以下の流れで来年度の研究を行う。 1.ChEMBLデータベースから、人間を対象としたデータ数が多い上位約10種類のタンパク質に対しての活性化合物データを利用して、モデルの構築、モデルの逆解析による分子設計を行う。構造生成器として、すでに実装した3種類の構造生成器を利用する。活性値予測モデルに加え、活性・非活性識別モデルを利用した構造生成を実施し、生成された化合物の妥当性をテスト化合物との類似性の観点から評価する。 2.複数の統計モデル統合手法の開発と適用範囲の把握を行う。 異なるAssayの情報を統合する効果を、ChEMBLの阻害定数(IC50)値の予測を目的として検証する。この検証は活性値予測であるので、回帰モデルを構築することになり、複数のAssayからなるIC50値を利用することで、対象とするAssayでの予測精度の変化を観察する。加えて、Ames変異原性テストによる毒性データセット、ChEMBLから抽出するシトクロムに対しての代謝毒性データセットを利用した「毒性でない化合物」を提案することは可能かどうかを、データセットの重なり具合の観点から定量的に評価する。
|