2015 Fiscal Year Research-status Report
リガンドデータベースからの機械学習によるハイブリッドスクリーニング法の開発
Project/Area Number |
15K00408
|
Research Institution | Tokyo University of Science |
Principal Investigator |
大和田 勇人 東京理科大学, 理工学部, 教授 (30203954)
|
Co-Investigator(Kenkyū-buntansha) |
青木 伸 東京理科大学, 薬学部, 教授 (00222472)
西山 裕之 東京理科大学, 理工学部, 准教授 (80328567)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 機械学習 / バイオインフォマティクス / スクリーニング |
Outline of Annual Research Achievements |
本年度はリガンドデータベースを活用した機械学習によるタンパク質と化合物の結合予測を行った.インシリコ創薬は薬として有望な化合物(リガンド)をコンピュータで選別する手法であるが,ここでは化合物の科学的性質を用いSupport Vector Machine(SVM)などの単一の機械学習が提案されてきた.一方,本研究ではSVMに加え,構造を学習するInductive Logic Programming(ILP)を取り上げ,両者を組み合わせた学習手法を提案した.これは従来のアンサンブル学習とは違い,異なるタイプのデータからの学習が可能になり,予測精度の向上が期待できる. まずSVMでは学習結果から得られる各化合物と分類平面までの距離から信頼度を求め,ILPでは,得られたルールの中から最高の評価値のルールを各化合物に適用し,被覆するかしないかで信頼度を求めた.さらに,正事例と負事例を反転させてILPを実行し,負事例と予測した化合物に対する信頼度も算出した.最後に,これら3つの機械学習による信頼度を統合させ,その結果に基づいて予測を行った.DUD-E(リガンドデコイデータベース)に登録されている7つの創薬標的タンパク質で実験を行った結果,F値に関してSVM単体に比べ最大0.06向上させることができ,さらに他の組み合わせ方法に比べ本手法のF値が高いことが示された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在は、実験から得られた生データのみを用いたインシリコ創薬にも焦点を当てている.リガンドデータベースに登録されているリガンドデータに比べて実験で得られた生データは量や質で劣るため,予測はより困難である.ここでは多数の決定木を用いたアンサンブル学習であるRandom ForestとSVMの2つの機械学習手法を取り上げ,放射線防護剤の防護能と細胞毒性の2つの指標で予測を行った.放射線防護剤は現在ガン治療において広く使われている放射線療法の副作用を抑えるための薬である.実験から得られた化合物データの全特徴量を学習に用いた手法と,本研究で提案するRandom Forestを用いて計算した特徴量の重要度を元に上位5,10,15,20,25,30%の特徴量のみを用いた手法の2つにおいて,Random ForestとSVMを用いた学習を行っている. いずれの条件においても全特徴量を用いた手法に比べ,Random Forestによる特徴量の選択を行った手法の予測精度が高いことが示されている.Random Forestによる学習では防護能の予測で約6%,細胞毒性の予測で約5%の精度向上が見られ,SVMの学習においても防護能の予測で約2%,細胞毒性の予測で約5%の精度向上が見られた.
|
Strategy for Future Research Activity |
インシリコ創薬において、予測精度の低下を引き起こす問題の一つにデータ不均衡の問題が挙げられる。一般に生化学的データにおける正事例データは負事例データに対して圧倒的に少ないケースが多く、データのサンプリング手法によってその後の機械学習の精度に大きく影響する。正事例と負事例のデータの比率を揃える手法として、負事例データから正事例データと同じ数だけランダムサンプリングする手法と、事前にデータをクラスタリングしてクラスターごとにサンプリングする手法を比較する実験を行ったところ、後者の手法を用いた機械学習は前者に比べて平均5%の精度向上が見られた。このように機械学習を行う前のデータ処理の方法がスクリーニングの性能に影響を与えるため、データの前処理方法に改善を加えてスクリーニング系全体の性能を向上させることを目指す。また、本年度はさらに分析対象となるデータの周辺情報を学習に取り入れ、学習の精度を向上させることを目指す。帰納論理プログラミング(ILP)はデータの周辺情報を背景知識として学習に利用出来るという特徴を持っている。本手法を用いることで創薬実験から直接得られるデータだけでなく、大規模データベースの利用や既に先行研究で明らかになっている生物学的、化学的知見を同時に学習に取り入れることが可能となり、より複雑な現象を説明することが可能となる。 今後はデータの処理方法およびデータの周辺情報の利用により現在の手法を更に強化していく計画である。
|
Causes of Carryover |
計算機実験に使用した計算機はすでに所有してあるものを使ったため、物品費に残が生じた。 データ解析に必要なデータは本来ウェットな実験を通じて収集する必要があるが、今年度はWEB上に公開されているデータを用いて解析を行ったため謝金に残が生じた。
|
Expenditure Plan for Carryover Budget |
データ解析に使用される機械学習システムを実行するための並列コンピュータ環境を用意するのに使用する。 また、謝金はウェットな実験を実施する際に使用する。
|
Research Products
(6 results)
-
-
-
[Presentation] In silico Screening of Zinc(II) Enzyme Inhibitors by SVM2015
Author(s)
Tadasuke Ito, Masato Okada, Shotaro Togami, Shin Aoki and Hayato Ohwada
Organizer
6th international conference on Computational Systems-Biology and Bioinformatics
Place of Presentation
Chatrium Hotel Riverside Bangkok,Bangkok,Thailand
Year and Date
2015-11-22 – 2015-11-25
Int'l Joint Research
-
-
-