2017 Fiscal Year Annual Research Report
Deep representation learning for drugs and proteins with neural networks
Project/Area Number |
17H07392
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
椿 真史 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (80803874)
|
Project Period (FY) |
2017-08-25 – 2019-03-31
|
Keywords | 機械学習 / 創薬 / 深層学習 / 人工知能 |
Outline of Annual Research Achievements |
機械学習・人工知能(AI)技術による創薬研究の一つとして、深層学習を用いた創薬研究に取り組んだ。基本的なサーベイについては、創薬の分野においてこれまでどのように機械学習手法が使われてきたか、そしてそこで生じている問題が近年の深層学習でどのように解決できるかを調査した。創薬では、薬剤化合物とタンパク質を同時に扱う必要があり、既存法ではこれらの特徴量・記述子をそれぞれ別々に人手で考えて、SVMなどの代表的な機械学習手法を適用していた。それを踏まえてまずは簡単な問題設定として、タンパク質は無視した上で、与えられた化合物だけからそれが薬剤かどうかを予測する手法とそのソフトウエアの開発に着手した。特に、特徴量や記述子を人手で設計することなく、end-to-endで学習・予測できることを目標とする。化合物はデータとしてはグラフ構造で表現できることから、そのような離散構造データに対する機械学習・深層学習手法が使えることがわかり、小規模なベンチマークデータセットを使って、実装・実験を行った。この成果を、機械学習分野における最大の国際会議である、Advances in Neural Information Processing Systems (NIPS 2017)のワークショップである、Machine Learning for Molecules and Materialsで発表し、そこでベストペーパー賞を受賞した。そしてこの手法に基づいて、タンパク質の配列や進化情報、そして立体構造を組み合わせた上で、薬剤とタンパク質の相互作用を予測する手法の開発を考案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
化合物のみを入力として、それが薬剤かどうかを予測する深層学習手法の考案と、そのソフトウエアの開発をほぼ終えることができた。そして、機械学習分野における最大の国際会議である、Advances in Neural Information Processing Systems (NIPS 2017)のワークショップである、Machine Learning for Molecules and Materialsで発表し、そこでベストペーパー賞を受賞した。しかしながら、大規模データでの検証はまだ行っておらず、そのためにはソフトウエアの大幅な高速化が必要であった。また、より実用的な創薬分野への適用・応用としては、薬剤だけではなくターゲットとなるタンパク質の配列、進化情報、さらには立体構造なども考慮した手法を考案する必要があるが、それにはまだ着手できていなかった。これは、薬剤がグラフ構造、タンパク質が配列・行列構造を持ってしまうことで、2つのまったく異なるデータ構造を柔軟にかつ統一的に扱う深層学習手法がほぼないためであった。また、創薬やバイオインフォマティクス分野の国際ジャーナルでの論文投稿を目指しており、その段階にはまだ達していなかった。機械学習分野の国際会議ワークショップでは、創薬分野でのインパクトという点では欠けており、また、そのようなドメインのジャーナルでは、機械学習分野のように予測精度だけが重要なのではなく、生物学・化学的な側面から機械学習で得られた結果の解釈性や説明可能性なども考慮に入れる必要があるため、そこに大きな課題があった。
|
Strategy for Future Research Activity |
薬剤化合物のグラフ構造データに対する深層学習のベーシックな部分の開発は終わったため、それをさらに拡張し高速化を図る。特に、グラフ構造の大規模なバッチ処理を高速に動かすために、効率的なGPU実装を行い、速度比較などの検証を行う。また、薬剤だけではなくタンパク質も深層学習の入力となるため、配列構造をどのように扱うかを検討する。配列構造の入力と手法については、多くのバリエーションがあるため、それについてもサーベイする。例えば、バイオインフォマティクスで主に使われるツールを用いて、数億配列とのアライメントを取り、配列中において進化的に保存されたアミノ酸情報を計算し、特徴量を設計する。これは、タンパク質配列における進化情報と呼ばれており、立体構造を暗に含んだ特徴量となるため、バイオインフォマティクスの分野では広く用いられており、深層学習の手法においてもこれは必須だと思われる。また、配列という1次元データではなく、立体構造という3次元データを直接入力する場合には、その機械学習手法の計算も重くなるため、高速化が必要不可欠となる。さらに、薬剤とタンパク質の双方のデータ構造や性質・特徴を踏まえた上で、新たに深層学習手法を開発、組み合わせる必要がある。評価するデータセットも、小規模なベンチマークだけではなく、大規模かつより実用的・実践的なデータを使うため、パブリックなものだけではなく製薬会社や大学・研究機関との連携していく。
|
Research Products
(1 results)