研究領域 | 化学コミュニケーションのフロンティア |
研究課題/領域番号 |
17H06410
|
研究機関 | 慶應義塾大学 |
研究代表者 |
榊原 康文 慶應義塾大学, 理工学部(矢上), 教授 (10287427)
|
研究分担者 |
佐藤 健吾 慶應義塾大学, 理工学部(矢上), 講師 (20365472)
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60721496)
|
研究期間 (年度) |
2017-06-30 – 2022-03-31
|
キーワード | 化合物フィンガープリント / 深層学習 / 相互作用 |
研究実績の概要 |
化合物の線形表記と畳込みニューラルネットワークを用いた化合物機能予測を行う深層学習手法を開発し,学習された特徴表現を解釈可能な形に還元できる新たなモデルを構築した.具体的には,SMILESを用いた化合物特徴行列と,畳込みニューラルネットワーク(以下CNN)を用いたモデルを組み,実験データにTOX21を利用し,約8000種の化合物が12個のタンパク質に対し結合するか否かの予測問題を解いた.モデルの精度検証として,データセットのすべてを用いた5-fold交差検証を行ったほか,汎化性能の実証のため,2014年の世界的コンペティションのために用意されたバリデーションを用いて,モデルのチューニング・スコアリングを行った.すべてのデータを用いた交差検証では,本手法がこれまで提案された代表的な手法をすべて上回った.コンペティションのバリデーションデータでは,優勝モデルに対してほとんど同等の性能を示した.深層学習手法の1つであるgraph convolution networkを用いて,化合物データベースPubChemから新規PKCリガンドの網羅的探索を行った.有望なリガンド候補を多数発見することに成功した.また,大規模な計算と大量の計測データを管理するためのGPU並列計算ユニットを中心とするクラスターマシンの構築を行った.化合物を計算機上で表現するための埋め込み表現(フィンガープリント)に関する最新の研究動向を調査した.望ましい特徴を持つ化合物およびアミノ酸配列を計算機上で生成するために深層生成モデルに関する最新の研究動向を調査した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画調書に記載した初年度の計画項目をほぼすべて達成した.
|
今後の研究の推進方策 |
SMILESを用いた化合物特徴行列と畳込みニューラルネットワークを用いたモデルに,さらにタンパク質のアミノ酸配列をCNNでモデル化する手法を組み合わせることにより,網羅的にタンパク質-化合物結合予測を行うことができる深層学習手法を開発する.この手法を実装したプログラムを次世代COPICAT第一バージョンとして,本領域内に公開し,他班の研究者に使用してもらうことにより,次世代COPICATの精度を実験検証し,改善を行っていく. PKCリガンド候補の結合実験の結果が得られ次第,そのデータを機械学習の学習データに追加して第三ラウンドの探索を行う.このように専門家の意見・実験検証・機械学習のフィードバックループを構築することで探索の精度を高めていき,最終的には新規骨格構造を有するPKCリガンドの発見を目指す. 望ましい特徴を持つ化合物を計算機で生成するために,敵対的生成ネットワーク (Generative Adversarial Network; GAN) および変分オートエンコーダ(Variational Audo-Encoder; VAE) による深層生成モデルを実装し,計算機実験を行う.
|