2021 Fiscal Year Research-status Report
Development of Chemical Structure Generation Method Based on Three-dimensional Molecular Representation
Project/Area Number |
20K19922
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 定量的構造活性相関 / 分子表現 / 構造記述子 / モデル統合 |
Outline of Annual Research Achievements |
研究目的は二つある。「必要性を考慮した上で、分子構造の三次元情報を取り入れた分子設計手法を開発」と、「複数の統計モデル統合手法の開発と適用範囲の把握」である。今年度は、複数の統計モデルを統合するための前段階として「複数の異なる環境(実験条件)下で取得されたデータを統合すべきか」という問いに回答するための手法開発ならびに適用限界の把握を後方向解析により検証した。50%阻害濃度(IC50)を対象とし、ChEMBLデータベースから特定の標的マクロ分子に対して複数の実験条件下での活性情報が登録されている化合物とIC50値を機械的に抽出した。これらの標的マクロ分子に対しての活性化合物は最低30個の化合物が登録されていることを条件とした。統合モデル構築手法としては、1: IC50値を補正することなく使用、2: 複数の実験系にて評価された共通化合物のIC50値に基づく補正(Scaling)、3:補正ではなく化合物のランキングを使用した評価、の三つを試した(上記の1と2は既往研究)。モデル構築のためのデータを、「予測対象とする化合物の類似性」に基づく選択方法も合わせて検討した。結果として、類似した化合物を含む実験系の全ての化合物を用いて構築したRanking support vector machineによるモデルと、単純に全ての活性化合物のデータをモデル構築のためのデータとしたTanimoto kernelによる回帰モデルとの精度がScaling手法と同程度の精度となった。しかし、Scalingでは同一化合物を異なる実験系で計測することが必要になるため、異なる実験系のデータを統合するためのモデル構築手法としては、単純なTanimoto kernelを利用した回帰モデルが適切であるとの知見を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的の一つである、「複数の統計モデル統合手法の開発と適用範囲の把握」に取り組んだ。当初は、対象とする複数の物性を予測するそれぞれのモデルを単純に組み合わせることを想定していた。しかし、実際には同一の活性値(エンドポイント)であっても実験系が異なれば結果の意味は異なり、化学的に意味のあるモデルを構築するためには、一段低い段回(実験系の違い)におけるモデル構築手法を検討する必要があると判断した。この判断のもと、分子構造から50%阻害濃度を予測するモデルを、複数の実験系で取得されたデータを統合することにより構築し、そのための手法を比較検討した。結果として、適用すべき手法と共に統合のメリット(デメリット)を明らかにした(Matsumoto K, Miyao T, Funatsu K, ACS Omega 2021, 6, 18, 11964-11973)。今回の研究成果では、化合物のランキングを(エンドポイントの値ではなく)予測することがモデルの精度に照らし合わせると重要であることがわかり、それを達成するための手法としては単純なTanimot kernelを利用した回帰モデルで十分であることが検証できた。
|
Strategy for Future Research Activity |
今年度の成果を踏まえ、以下の通り来年度の研究を行う。 1.異なる対象(エンドポイント)に対しての複数の統計モデル統合手法の開発と適用範囲の把握を行う。 異なるAssayの情報を統合する手法を、Ames変異原性テストによる毒性データセットを利用した毒性予測モデル、ChEMBLから抽出するシトクロムに対しての代謝毒性データセットを利用した代謝毒性予測モデル、そのほかの活性データセットを利用した予測モデルに適用する。目的は、「毒性でない化合物」を提案することである。ベースラインとなるモデルは、エンドポイント毎にTanimoto kernelによる回帰モデルである。モデルの統合による精度向上(低下)をデータセットの重なりの観点から定量的に評価する。加えて、深層学習を利用したマルチタスク学習の効果なども検証し、化合物クラスがエンドポイント毎に異なっている場合においても、その有効性と併せてモデルを統合する手法を考案する。 2.三次元分子構造生成器の開発を行う。分子フラグメントとして立体配座を与えたフラグメントを準備し、フラグメントの付加と立体配座の微調整を繰り返すことで、効率的に分子構造生成器を生成する。活性・非活性化合物識別モデルを適用し、活性化合物を選択的に生成する構造生成を行う。生成された化合物の妥当性をテスト化合物との類似性や化学的妥当性の観点から評価する。比較対象は、2019年度に構築した化学グラフ(構造式)に基づく構造生成器である。
|