新規骨格構造を有する医薬品候補化合物探索手法の開発
Project/Area Number |
23KJ1582
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund |
Section | 国内 |
Review Section |
Basic Section 62010:Life, health and medical informatics-related
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
前田 樹 奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
|
Project Period (FY) |
2023-04-25 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥1,800,000 (Direct Cost: ¥1,800,000)
Fiscal Year 2024: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2023: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | ケモインフォマティクス / 医薬品探索 / 機械学習 / 活性予測 / 分子表現 / scaffold hopping |
Outline of Research at the Start |
多様なタンパク質に対して、少数の活性化合物の化学構造から骨格の異なる活性化合物を高精度に探索する手法の開発を目的とする。そのために、様々な分子表現が持つ情報を定量的に評価する方法を確立し、異なる情報を持つ分子表現を組み合わせた中から標的タンパク質ごとに最適な表現を選択する仮想スクリーニングモデルを開発する。さらに、学習データとして利用可能な活性化合物数の不足を補うため、三次元の分子表現を用いる際の立体配座として複数の準安定配座を用いるデータ拡張を行う。
|
Outline of Annual Research Achievements |
本研究の目的は、多様な標的マクロ分子に対して少数の活性化合物の化学構造からそれらと異なる骨格を有する活性化合物の探索を行う、汎用的かつ高精度な仮想スクリーニング手法の開発である。本研究計画は3項目からなり、令和5年度は項目(1)と(2)を実施した。 項目(1)の分子表現の持つ情報の比較について、4種類の分子表現を用いて分子間の距離の分布を計算したところ、どの分子表現間も相関がなく、それぞれ異なる情報を持つことを確認した。 項目(2)の分子表現の変数選択について、標的マクロ分子ごとに精度の高くなる分子表現を選択してスクリーニングを行う方法として、カーネル関数の重み付き組み合わせを考案した。機械学習モデルsupport vector machine (SVM)のカーネル関数として、各分子表現に対応したカーネルに重みを掛けて足し合わせるカーネル関数を適用した。その結果、二つの分子表現を組み合わせた場合に、スクリーニング精度が高い方の分子表現のみを用いた場合と同程度の精度が得られた。また、重みを決定するための交差検証において、一種類の類縁体分子群のみを学習データとすると常に同じ重みが選択されてしまった。そこで、複数の類縁体分子群を学習データに用いて類縁体毎のデータ分割を行ったところ、一般的に用いられるランダム分割の場合には選ばれなかった0以外の重みも選ばれるようになり、常に同じパラメータ値が選択される問題を解決した。 しかし、上記のモデルではスクリーニング精度が十分ではなかった。そこで、本手法の精度向上の程度をより明らかにするため、多数かつ構造的に多様な学習データを用いて再度計算を行ったところ、組み合わせカーネルの使用による精度向上は確認できなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初予定していた2項目に取り組み、一定の成果は得られたものの、既存手法を上回る成果には至らなかったから。項目(1)の分子表現の持つ情報の比較については、四つの分子表現がそれぞれ異なる情報を有していることを確認した。項目(2)の分子表現の変数選択についても、学習データが少数の類縁体分子群のみからなる場合には、カーネル関数の重み付き組み合わせにより、二つの分子表現のうち精度が良い方の分子表現と同程度の精度となることを明らかにした。また、ハイパーパラメータを決定するための交差検証において、データを類縁体ごとに分割することで、常に同じパラメータ値が選ばれる問題を解決できた。一方で、上述の方法で得られる精度そのものは実用に足る水準ではなく、ランダムに選択した100個の活性化合物を学習データとした場合には、カーネル関数を組み合わせたSVMでは既存手法であるランダムフォレストを上回る精度を達成することはできなかった。
|
Strategy for Future Research Activity |
テストデータを学習データと共通する部分構造を持たない化合物のみとして、活性既知の化合物と異なる骨格を有する活性化合物の探索精度を評価する。また、分子表現の変数選択として、重み付けによる分子表現全体の選択の他に、分子表現内の各変数の選択を行う。予測に重要な変数を選択することで予測精度の向上を目指す。 少数の活性化合物のみから高精度な予測を行う方法として、項目(3)の複数の立体配座を利用した学習データ数の拡張に取り組む。
|
Report
(1 results)
Research Products
(1 results)