研究課題/領域番号 |
20K19922
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分62010:生命、健康および医療情報学関連
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
宮尾 知幸 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 准教授 (20823909)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 化学情報学 / 分子構造生成 / 分子表現 / 定量的構造活性相関 / 構造記述子 / モデル統合 / 分子設計 / 定量的構造物性相関 / 三次元分子表現 / モデルの統合 |
研究開始時の研究の概要 |
望ましい薬理活性・物性を持つ分子構造を統計解析により設計する新規な手法の確立を目的とする。分子構造の三次元構造を考慮した分子設計、及び 複数の物性・活性を考慮した分子設計手法の確立を目指す。これらの目標を達成するために、分子構造の二次元表現(グラフ構造)に基づく分子設計が適用可能な範囲を定式化し、三次元構造を考慮した設計が必要になる状況を明確にする。さらに、複数データセットを用いて構築した統計モデルを統合し、そのモデルに基づき分子構造を設計するための特徴量とアルゴリズムを考案する。
|
研究実績の概要 |
本研究における目的は、「分子構造の3次元情報を取り入れた分子設計手法を確立すること」であり、今年度は遺伝的アルゴリズム(分子改変のみ)を利用した構造生成器の開発と、数式としてモデルを解釈できる回帰モデル構築手法を提案した。前年度までの研究成果では、分子構造の2次元情報を表現した記述子と3次元情報を表現した記述子において予測精度に有意な差は見られない一方で、「活性があるかないかを予測する課題」に対しては、3次元分子表現の優位性を複数のターゲットにおいて確認できている。これらの分子表現を利用したモデルは解釈可能なものでなければ、「実際の利用」を考えた場合には真に有用とはならない。そのために解釈性に富んだモデル構築手法が必要となりシンボリック回帰モデル構築手法を考案した。 さまざまなタイプの予測モデルを、柔軟に組み込むことができる構造生成器として、遺伝的アルゴリム(分子改変)による構造生成器を開発した。既往の手法としてはヒュリースティックな構造改変ルールを実装したものが複数提案されている。しかし、今回構築した構造生成器は構造改変ルールを既存の化合物データベースから自動抽出する仕組みを利用しており、またコンピュータにおける仮想反応を利用している。これは、利用者が指定する反応に限定した構造改変を行うなど柔軟な設定が可能である。加えて解釈性に富んだ数式をモデルとして提案するシンボリック回帰構築手法を新規考案した。今後はこの開発した構造生成器とモデル構築手法を利用して、複数の活性・毒性予測モデルを統合したモデルの評価が良くなる分子構造を生成する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
分子構造から活性を予測するための分子表現として3次元情報と2次元情報が必要となる状況は予測対象とターゲットに依存する。そのため、新しい分子をデザインするためにはこれら2種類の表現からなるモデルを柔軟に組み込むことができる構造生成器が必要になる。今回は前年度までに検討していた、Matched molecular pair に基づく手法、Recurrent neural networkによるSMILES(文字列)生成モデル、分子フラグメントを組み合わせる手法に加えて、遺伝的アルゴリズム(分子改変)による構造生成器を設計し実装した。加えて、解釈性に焦点を当てたモデル構築手法として3種類のフィルターを導入したシンボリック回帰モデルを新規考案した(K. Takaki and T. Miyao, Artificial Intelligence in the Life Sciences, 2022, 2, 100046)。
|
今後の研究の推進方策 |
本年度新しく考案した構造生成器と、解釈性の高い回帰モデル構築手法を利用して3次元分子構造(立体配座)の生成を行うシステムを構築する。併せてレトロスペクティブな評価検討を以下の流れで行う。特に一つの予測対象についても2次元と3次元の分子表現を利用した統合モデル構築を行う点が新しい研究課題となっている。 1.ChEMBLデータベースから、人間を対象としたデータ数が多い上位約10種類のタンパク質に対しての活性化合物データを利用して、モデルの構築、モデルの逆解析による分子設計を行う。モデル構築には、分子構造の2次元と3次元表現を組み合わせたモデルを新規考案する。具体的には、モデルの予測値を組み合わせる際に各立体配座がとるエネルギーを確率として考慮する仕組みを考案する。 2.確率として一つのターゲットに対して、遺伝子に対する毒性、代謝機能に対する毒性を集めたデータセットを用いて、複数の毒性予測モデルを構築する。それら3つのモデルを利用して「毒性でない活性化合物」を提案する。提案された分子構造群に別途トレーニングから分けた望ましい化合物が含まれるか否かを評価基準として検証する。
|