2020 Fiscal Year Annual Research Report
Deep analysis of chemical communication space using artificial intelligence technology
Project Area | Frontier research of chemical communications |
Project/Area Number |
17H06410
|
Research Institution | Keio University |
Principal Investigator |
榊原 康文 慶應義塾大学, 理工学部(矢上), 教授 (10287427)
|
Co-Investigator(Kenkyū-buntansha) |
佐藤 健吾 慶應義塾大学, 理工学部(矢上), 講師 (20365472)
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60721496)
|
Project Period (FY) |
2017-06-30 – 2022-03-31
|
Keywords | 人工知能 / 深層学習 / ケミカルスペース / マルチオミックス |
Outline of Annual Research Achievements |
深層学習手法により化合物ライブラリーの分子構造群を潜在空間に射影する第一の目的は,ケミカルスペースの多様性を数理的な空間で表現をして,それを効果的に可視化することにある.これにより,化合物の構造や機能の分布を情報学的に解析することが可能となり,また視覚的に確認をすることができる.第二の目的は,獲得した潜在空間をもとに,目的の機能に最適化された新規の化合物構造を設計することにある.例えば,潜在空間における抗がん剤分子標的薬の分布が判明すれば,その周辺空間から新たに化合物を生成することで分子標的薬としてより最適化された化合物構造を設計することができる.このような目的のために,深層学習の分野において,化合物の自己符号化器(JT-VAE)が提案されてきたが,どの手法も低分子化合物を対象としていたため,天然化合物のような巨大分子構造を扱うことができなかった.本研究では,天然化合物を扱うための自己符号化器(NP-VAE)を今回新たに開発し,巨大分子構造を射影した潜在空間を獲得することにはじめて成功した.NP-VAEは,深層学習手法のTree-LSTMやVAEを駆使し,部分構造抽出と学習アルゴリズムを改良することにより開発を達成した.その精度は,従来の深層学習手法よりも高かった.本開発手法を用いて,領域の班員から送られた1,900種類の化合物データを用いて,世界で初めての天然物・巨大分子構造の潜在空間を構築した.同時に,本領域の化合物群に特異的な分子構造として,1,000以上の部分分子構造が同定された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
タンパク質化合物結合予測を高精度に行うバーチャルスクリーニングシステムである次世代COPICATの開発がほぼ完了した.具体的には,タンパク質の特徴,化合物の特徴,複数タイプのインタラクトームデータを統合して,タンパク質-化合物相互作用を予測する畳み込みニューラルネットワークを用いた深層学習ベースの手法である次世代COPICATを開発した.インタラクトームデータは,タンパク質-タンパク質相互作用と化合物-化合物相互作用から構成されている.分子構造データに基づくタンパク質特徴ベクトルを獲得した.化合物データについては,フィンガープリント法として標準的に用いられるECFPを分子構造データに基づく化合物特徴ベクトルとした.マルチインタラクトームデータはそれぞれ,グラフの分散表現学習フレームワークであるnode2vecを適用することで各ノードの特徴ベクトルを取り出した.最終層では,4つの異なるモダリティの特徴ベクトルを同一の潜在空間に射影し,類似度を計算することにより,相互作用の予測値を出力した.類似度の計算として,cos類似度を拡張したelement-wise productと全結合層を組み合わせた手法を開発した, 天然化合物を扱うための自己符号化器(NP-VAE)を今回新たに開発し,巨大分子構造を射影した潜在空間を獲得することにはじめて成功した.
|
Strategy for Future Research Activity |
今回開発に成功したNP-VAEは,巨大な分子構造を扱うことのできる汎用で強力な深層学習手法であるため,今後のあらゆる応用が可能である.まず,生理活性などの機能の次元を潜在空間に加えることにより,構造の機能的な解析や最適化と設計に応用していく.また,今後も班員より多くの化合物構造を収集することで,本領域でしか成しえない世界でも類を見ないケミカルスペースの潜在空間を構築して,最終的には本領域が目指すAIプラットフォームの強固な基盤を構築していく.
|
Research Products
(3 results)