2022 Fiscal Year Research-status Report
Development of Chemical Structure Generation Method Based on Three-dimensional Molecular Representation
Project/Area Number |
20K19922
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 化学情報学 / 分子構造生成 / 分子表現 |
Outline of Annual Research Achievements |
本研究における目的は、「分子構造の3次元情報を取り入れた分子設計手法を確立すること」であり、今年度は遺伝的アルゴリズム(分子改変のみ)を利用した構造生成器の開発と、数式としてモデルを解釈できる回帰モデル構築手法を提案した。前年度までの研究成果では、分子構造の2次元情報を表現した記述子と3次元情報を表現した記述子において予測精度に有意な差は見られない一方で、「活性があるかないかを予測する課題」に対しては、3次元分子表現の優位性を複数のターゲットにおいて確認できている。これらの分子表現を利用したモデルは解釈可能なものでなければ、「実際の利用」を考えた場合には真に有用とはならない。そのために解釈性に富んだモデル構築手法が必要となりシンボリック回帰モデル構築手法を考案した。 さまざまなタイプの予測モデルを、柔軟に組み込むことができる構造生成器として、遺伝的アルゴリム(分子改変)による構造生成器を開発した。既往の手法としてはヒュリースティックな構造改変ルールを実装したものが複数提案されている。しかし、今回構築した構造生成器は構造改変ルールを既存の化合物データベースから自動抽出する仕組みを利用しており、またコンピュータにおける仮想反応を利用している。これは、利用者が指定する反応に限定した構造改変を行うなど柔軟な設定が可能である。加えて解釈性に富んだ数式をモデルとして提案するシンボリック回帰構築手法を新規考案した。今後はこの開発した構造生成器とモデル構築手法を利用して、複数の活性・毒性予測モデルを統合したモデルの評価が良くなる分子構造を生成する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
分子構造から活性を予測するための分子表現として3次元情報と2次元情報が必要となる状況は予測対象とターゲットに依存する。そのため、新しい分子をデザインするためにはこれら2種類の表現からなるモデルを柔軟に組み込むことができる構造生成器が必要になる。今回は前年度までに検討していた、Matched molecular pair に基づく手法、Recurrent neural networkによるSMILES(文字列)生成モデル、分子フラグメントを組み合わせる手法に加えて、遺伝的アルゴリズム(分子改変)による構造生成器を設計し実装した。加えて、解釈性に焦点を当てたモデル構築手法として3種類のフィルターを導入したシンボリック回帰モデルを新規考案した(K. Takaki and T. Miyao, Artificial Intelligence in the Life Sciences, 2022, 2, 100046)。
|
Strategy for Future Research Activity |
本年度新しく考案した構造生成器と、解釈性の高い回帰モデル構築手法を利用して3次元分子構造(立体配座)の生成を行うシステムを構築する。併せてレトロスペクティブな評価検討を以下の流れで行う。特に一つの予測対象についても2次元と3次元の分子表現を利用した統合モデル構築を行う点が新しい研究課題となっている。 1.ChEMBLデータベースから、人間を対象としたデータ数が多い上位約10種類のタンパク質に対しての活性化合物データを利用して、モデルの構築、モデルの逆解析による分子設計を行う。モデル構築には、分子構造の2次元と3次元表現を組み合わせたモデルを新規考案する。具体的には、モデルの予測値を組み合わせる際に各立体配座がとるエネルギーを確率として考慮する仕組みを考案する。 2.確率として一つのターゲットに対して、遺伝子に対する毒性、代謝機能に対する毒性を集めたデータセットを用いて、複数の毒性予測モデルを構築する。それら3つのモデルを利用して「毒性でない活性化合物」を提案する。提案された分子構造群に別途トレーニングから分けた望ましい化合物が含まれるか否かを評価基準として検証する。
|
Causes of Carryover |
OpenEye Academic License購入時の為替レートの影響。研究推進のために今年度にも同ライセンスを購入予定である。そのための費用に用いる予定である。
|