2015 Fiscal Year Annual Research Report
ベイズ統計と量子化学を基盤とする新薬候補分子の探索
Project/Area Number |
15H02672
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
吉田 亮 統計数理研究所, モデリング研究系, 准教授 (70401263)
|
Co-Investigator(Kenkyū-buntansha) |
本郷 研太 北陸先端科学技術大学院大学, 先端科学技術研究科, 助教 (60405040)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | ベイズ統計 / 量子化学 / 分子設計 / 創薬 / シミュレーション |
Outline of Annual Research Achievements |
ベイズ統計と第一原理計算に基づく薬剤分子のデザイン手法について研究を行った。(a)機械学習で化学構造から性質のフォーワード予測のモデル(構造物性相関モデル:QSPR)を構築し、(b)これをベイズ則に従い反転させ、性質から構造のバックワード予測(Inverse-QSPR)を導く。(c)バックワード予測のモデルから仮説分子を生成することで、所望の性質を有する埋蔵分子を発掘する。当該年度は、上記(a)-(c)に関する機械学習の方法論を整備し、これらをパイプライン化した上でR言語のパッケージを開発した。開発手法を有機低分子のデザインに適用し、所望の性質を有する新規分子の発見において、その有用性を実証した。 当該年度は、化学構造の生成モデルの開発に重点的に取り組んだ。本研究における最も大きな技術課題の一つは、「分子らしい(グラフ)構造」をいかに生成させるかであった。この問題を解決するために自然言語処理のアイデアを軸に研究に取り組み、極めて有望な計算手法を開発するに至った。化学構造の表現方法の一つであるSMILESルールに従い、実際に存在する化合物を文字列で表現し、言語モデルに数万化合物の文字列情報を学習させ、「分子らしさ」の文脈(文字パターン)を機械に認識させるというアイデアである。このチャレンジがある程度の成功を収めたことで、本プロジェクトは大きく前進した。 さらに本研究では、約2万個の薬剤候補分子に対して第一原理計算を実施し、構造物性相関データを生成した。このデータはプロジェクトの研究開発を目的に作成したものであるが、ベンチマークデータとして関連分野の発展に寄与する可能性があると考え、論文発表と同時に一般公開することを決めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当該年度はまずは方法論の大枠を固め、上記(a)-(c)のパイプラインを実際に動かしてみることで、提案手法の可能性と技術課題を炙り出すことに専念した。最も高い障壁になると予想された構造生成モデルの開発については、自然言語処理の発想を軸に問題解決に取り組んだ。これによりケミカルに適切な分子を高速に発生できるようになり、開発手法のデザイン性能が飛躍的に向上した。現行手法については、平成28年度上旬にR言語のパッケージを公開する。 第一原理計算(密度汎関数法)による構造物性相関データセットの整備については、PubChemデータベースの16,674化合物に対する物性計算(HOMO-LUMOギャップ、内部エネルギー等)を行った。北陸先端科学技術大学院大学のスーパーコンピュータに計算環境を構築した。平成28年度以降も引き続きデータセットを拡充していく。 性能検証を行うために、現行手法を上記データに適用した。HOMO-LUMOギャップと内部エネルギーの目標領域を定め、開発手法が設計した仮説分子の物性値を第一原理計算で検証した。比較的簡単な条件設定では、所望物性を有する化学構造を高速かつ安定的に設計できることが確認された。一方で、既存の化合物がほぼ存在しない領域に所望物性を設定した場合、性能が大幅に低下することが分かった。この問題を克服することこそが物質探索のグランドチャレンジであり、ここに本プロジェクトの最終目標を定めるに至った。
|
Strategy for Future Research Activity |
プロジェクトはおおむね順調に進んでいる。当該年度は、最も大きな課題の一つであった「分子らしい構造」の高速生成が可能になり、開発手法のポテンシャルが飛躍的に高まることとなった。次年度以降も引き続き、基盤技術の更なる高精度化・高度化を目指す。特に、データが存在しない領域に所望物性を設定した際に、極めて新規性の高い仮説構造を発生させることを最大の目標とする。これに対する解決方策として、第一原理計算や分子動力学シミュレーション等の計算機実験とデータ駆動型分子設計手法を実験計画理論(ベイズ最適化等)の枠組みで統合するアプローチを検討する。 さらに研究推進の過程で、本プロジェクトの新しい展開が浮上してきた。本研究の方法論は、薬剤以外の有機分子に対しても拡張可能であり、樹脂、色素、ポリマー、触媒等の物質探索に適用できる。研究活動の中で有機化学全体に本プロジェクトを展開していくことに各方面から期待が寄せられ、材料分野の産学セクションと協働で研究対象の拡大を図っていくこととなった。
|
Research Products
(5 results)