研究領域 | 化学コミュニケーションのフロンティア |
研究課題/領域番号 |
17H06410
|
研究機関 | 慶應義塾大学 |
研究代表者 |
榊原 康文 慶應義塾大学, 理工学部(矢上), 教授 (10287427)
|
研究分担者 |
佐藤 健吾 慶應義塾大学, 理工学部(矢上), 講師 (20365472)
齋藤 裕 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (60721496)
|
研究期間 (年度) |
2017-06-30 – 2022-03-31
|
キーワード | 人工知能 / 深層学習 / ケミカルスペース / マルチオミックス |
研究実績の概要 |
タンパク質化合物相互作用を予測する機械学習手法にタンパク質タンパク質相互作用および化合物化合物ネットワークのオミックスデータを導入することで,予測精度を向上することを目的として,深層学習手法の設計を行った.具体的には,昨年度開発したSMILESを用いた化合物特徴行列とタンパク質の分散表現に畳み込みニューラルネットワーク(CNN)を適用したバーチャルスクリーニング手法に,マルチオミックスデータを組み合わせた.その結果,ヒトタンパク質6325種,化合物1523種から成るタンパク化合物相互作用データについて,マルチオミックスデータから得られた特徴量を組み込むことで,予測精度を改善することに成功した. 当初の計画通り化合物タンパク質相互作用予測システムを用いて他班の研究を支援する体制を整備した.研究分担者の齋藤が所属する産業技術総合研究所に配備された国内最大の人工知能スパコンABCIを利用して,グラフ畳み込みネットワークに基づく相互作用予測システムを構築した.本システムを用いるとPubChemデータベースに収録された約1億個の化合物から,網羅的リガンド探索を半日以内で行うことが可能である.現在までにA02班の入江グループと共同研究を開始しており,Protein Kinase C(PKC)の新規リガンドを探索した. RNA二次構造予測アルゴリズムmxfoldを開発した.本手法では,これまでRNA二次構造予測で用いられてきた自由エネルギー最小化に基づく手法と機械学習に基づく手法を組み合わせ,意味のある特徴量を選択するL1正則化を機械学習に組み込むことによって適切な複雑さを表現することができる二次構造予測モデルを学習する.ベンチマーク実験では,従来の手法と比べて極めて高い精度でRNA二次構造を予測可能であることを示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画調書に記載した中間目標である網羅的にタンパク質化合物結合予測を高精度に行うバーチャルスクリーニングシステムである次世代COPICAT第一バージョン開発がほぼ目前のところまできており,順調に進展している. 入江グループの所有する独自のPKCアッセイデータと文献データから深層学習を行い,PubChemの全化合物に対して予測スコアを計算した.予測上位の化合物には,既知リガンドとは骨格構造の異なる新規リガンド候補が多数含まれていた.また,予測結果について入江グループの専門家によるチェックを行い,明らかに偽陽性と思われる化合物を負例として学習データに追加して,学習と予測をやり直すというフィードバックを数回繰り返すことで予測結果を改善した. RNA, DNAなどの核酸配列,アミノ酸配列や化合物構造をその高次構造を考慮しつつ表現するための埋め込み表現に関する研究動向を調査した.畳み込みニューラルネットワークやグラフニューラルネットワークによる手法を検討および実装した.さらに,これらの生物配列や化合物を計算機上で生成するために深層生成モデルに関する最新の研究動向を調査した.
|
今後の研究の推進方策 |
本年度設計したタンパク質タンパク質相互作用および化合物化合物ネットワークのオミックスデータをタンパク質化合物結合予測に組み合わせた深層学習手法をベースとして,次世代COPICAT第一バージョンを開発する.それを本領域内に公開し,他班の研究者に使用してもらうことにより,次世代COPICATの精度を実験検証し,改善を行っていく. 今後,さらに予測結果の改善を行い,平成31年度中にウェット実験によるPKCとの結合の検証まで進む予定である. RNA, DNAなどの核酸配列,アミノ酸配列や化合物構造を表現する埋め込み表現のためのニューラルネットワークを実装する.その応用として,これらの間の相互作用を予測する機械学習モデルを実装し,そのベンチマークを実施する.さらに,望ましい生物配列や化合物を生成するための深層生成モデルを実装し,計算機実験を行う.
|