2015 年度実施状況報告書

リガンドデータベースからの機械学習によるハイブリッドスクリーニング法の開発

研究課題

研究課題/領域番号	15K00408
研究機関	東京理科大学
研究代表者	大和田勇人東京理科大学, 理工学部, 教授 (30203954)
研究分担者	青木伸東京理科大学, 薬学部, 教授 (00222472) 西山裕之東京理科大学, 理工学部, 准教授 (80328567)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	機械学習 / バイオインフォマティクス / スクリーニング
研究実績の概要	本年度はリガンドデータベースを活用した機械学習によるタンパク質と化合物の結合予測を行った．インシリコ創薬は薬として有望な化合物（リガンド）をコンピュータで選別する手法であるが，ここでは化合物の科学的性質を用いSupport Vector Machine（SVM）などの単一の機械学習が提案されてきた．一方，本研究ではSVMに加え，構造を学習するInductive Logic Programming（ILP）を取り上げ，両者を組み合わせた学習手法を提案した．これは従来のアンサンブル学習とは違い，異なるタイプのデータからの学習が可能になり，予測精度の向上が期待できる．まずSVMでは学習結果から得られる各化合物と分類平面までの距離から信頼度を求め，ILPでは，得られたルールの中から最高の評価値のルールを各化合物に適用し，被覆するかしないかで信頼度を求めた．さらに，正事例と負事例を反転させてILPを実行し，負事例と予測した化合物に対する信頼度も算出した．最後に，これら3つの機械学習による信頼度を統合させ，その結果に基づいて予測を行った．DUD-E（リガンドデコイデータベース）に登録されている7つの創薬標的タンパク質で実験を行った結果，F値に関してSVM単体に比べ最大0.06向上させることができ，さらに他の組み合わせ方法に比べ本手法のF値が高いことが示された．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由現在は、実験から得られた生データのみを用いたインシリコ創薬にも焦点を当てている．リガンドデータベースに登録されているリガンドデータに比べて実験で得られた生データは量や質で劣るため，予測はより困難である．ここでは多数の決定木を用いたアンサンブル学習であるRandom ForestとSVMの2つの機械学習手法を取り上げ，放射線防護剤の防護能と細胞毒性の2つの指標で予測を行った．放射線防護剤は現在ガン治療において広く使われている放射線療法の副作用を抑えるための薬である．実験から得られた化合物データの全特徴量を学習に用いた手法と，本研究で提案するRandom Forestを用いて計算した特徴量の重要度を元に上位5，10，15，20，25，30%の特徴量のみを用いた手法の2つにおいて，Random ForestとSVMを用いた学習を行っている．いずれの条件においても全特徴量を用いた手法に比べ，Random Forestによる特徴量の選択を行った手法の予測精度が高いことが示されている．Random Forestによる学習では防護能の予測で約6%，細胞毒性の予測で約5%の精度向上が見られ，SVMの学習においても防護能の予測で約2%，細胞毒性の予測で約5%の精度向上が見られた．
今後の研究の推進方策	インシリコ創薬において、予測精度の低下を引き起こす問題の一つにデータ不均衡の問題が挙げられる。一般に生化学的データにおける正事例データは負事例データに対して圧倒的に少ないケースが多く、データのサンプリング手法によってその後の機械学習の精度に大きく影響する。正事例と負事例のデータの比率を揃える手法として、負事例データから正事例データと同じ数だけランダムサンプリングする手法と、事前にデータをクラスタリングしてクラスターごとにサンプリングする手法を比較する実験を行ったところ、後者の手法を用いた機械学習は前者に比べて平均5%の精度向上が見られた。このように機械学習を行う前のデータ処理の方法がスクリーニングの性能に影響を与えるため、データの前処理方法に改善を加えてスクリーニング系全体の性能を向上させることを目指す。また、本年度はさらに分析対象となるデータの周辺情報を学習に取り入れ、学習の精度を向上させることを目指す。帰納論理プログラミング（ILP）はデータの周辺情報を背景知識として学習に利用出来るという特徴を持っている。本手法を用いることで創薬実験から直接得られるデータだけでなく、大規模データベースの利用や既に先行研究で明らかになっている生物学的、化学的知見を同時に学習に取り入れることが可能となり、より複雑な現象を説明することが可能となる。今後はデータの処理方法およびデータの周辺情報の利用により現在の手法を更に強化していく計画である。
次年度使用額が生じた理由	計算機実験に使用した計算機はすでに所有してあるものを使ったため、物品費に残が生じた。データ解析に必要なデータは本来ウェットな実験を通じて収集する必要があるが、今年度はWEB上に公開されているデータを用いて解析を行ったため謝金に残が生じた。
次年度使用額の使用計画	データ解析に使用される機械学習システムを実行するための並列コンピュータ環境を用意するのに使用する。また、謝金はウェットな実験を実施する際に使用する。

研究成果
(6件)

すべて 2016 2015

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (5件) (うち国際学会 5件)

[雑誌論文] Docking Score Calculation Using Machine Learning with an Enhanced Inhibitor Database2015
- 著者名/発表者名
  Masato Okada, Tadasuke Ito, Hayato Ohwada and Shin Aoki
- 雑誌名
  
  Journal of Medical Imaging and Health Informatics
  
  巻: 5 ページ: 1104-1107
- DOI
  http://dx.doi.org/10.1166/jmihi.2015.1503
- 査読あり
[学会発表] Comparison of Random Forest and SVM for the Raw Data in Drug Discovery: Prediction of Radiation Protection and Toxicity Case Study2016
- 著者名/発表者名
  Atsushi Matsumoto, Shin Aoki, and Hayato Ohwada
- 学会等名
  8th International Conference on Machine Learning and Computing
- 発表場所
  REGAL ORIENTAL HOTEL,Kowloon City, Hong Kong
- 年月日
  2016-02-22 – 2016-02-25
- 国際学会
[学会発表] In silico Screening of Zinc(II) Enzyme Inhibitors by SVM2015
- 著者名/発表者名
  Tadasuke Ito, Masato Okada, Shotaro Togami, Shin Aoki and Hayato Ohwada
- 学会等名
  6th international conference on Computational Systems-Biology and Bioinformatics
- 発表場所
  Chatrium Hotel Riverside Bangkok,Bangkok,Thailand
- 年月日
  2015-11-22 – 2015-11-25
- 国際学会
[学会発表] Prediction of Radioprotectiors Targeting p53 for Suppression of Acute Effect of Cancer Radiotherapy using Machine Learning2015
- 著者名/発表者名
  Atsushi Matsumoto,Tadasuke Ito,Yurie Nishi,Shinya Ariyasu,Shin Aoki and Hayato Ohwada
- 学会等名
  The IEEE International Conference on Bioinformatics and Biomedicine 2015
- 発表場所
  Hyatt Regency Bethesda, Bethesda, Maryland 20814, USA
- 年月日
  2015-11-09 – 2015-11-12
- 国際学会
[学会発表] ILP based screening applied to predicting carbonic anhydrase II ligands2015
- 著者名/発表者名
  Tadasuke Ito, Masato Okada, Shotaro Togami, Shinya Ariyasu, Shin Aoki, and Hayato Ohwada
- 学会等名
  The IEEE International Conference on Bioinformatics and Biomedicine 2015
- 発表場所
  Hyatt Regency Bethesda, Bethesda, Maryland 20814, USA
- 年月日
  2015-11-09 – 2015-11-12
- 国際学会
[学会発表] In Silico Screening of Zinc(II) Enzyme Inhibitors by ILP2015
- 著者名/発表者名
  Tadasuke Ito, Shotaro Togami, Shin Aoki and Hayato Ohwada
- 学会等名
  25th International Conference on Inductive Logic Programming
- 発表場所
  Kyoto University Raku-Yu. Kaikan, University of Kyoto,Japan
- 年月日
  2015-08-20 – 2015-08-22
- 国際学会

2015 年度 実施状況報告書

リガンドデータベースからの機械学習によるハイブリッドスクリーニング法の開発

研究代表者

大和田 勇人 東京理科大学, 理工学部, 教授 (30203954)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Docking Score Calculation Using Machine Learning with an Enhanced Inhibitor Database2015

著者名/発表者名

雑誌名

DOI

[学会発表] Comparison of Random Forest and SVM for the Raw Data in Drug Discovery: Prediction of Radiation Protection and Toxicity Case Study2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] In silico Screening of Zinc(II) Enzyme Inhibitors by SVM2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Prediction of Radioprotectiors Targeting p53 for Suppression of Acute Effect of Cancer Radiotherapy using Machine Learning2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] ILP based screening applied to predicting carbonic anhydrase II ligands2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] In Silico Screening of Zinc(II) Enzyme Inhibitors by ILP2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

大和田勇人東京理科大学, 理工学部, 教授 (30203954)