2009 Fiscal Year Annual Research Report
In-silico創薬のための機械学習を用いた生理活性配座予測
Project/Area Number |
21680025
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
津田 宏治 National Institute of Advanced Industrial Science and Technology, 生命情報工学研究センター, 研究員 (90357517)
|
Keywords | 機械学習 / 生体分子 / 生理活性 |
Research Abstract |
タンパク質に結合するリガンドの配座予測システムを構築する際に問題となるのは、一つのリガンドが取り得る配座の数が、百万を超えるほど多数になるという点である。最適配座の予測を、ガウシアンプロセスなどを用いて行う際には、まず類似した配座をつないだ類似度ネットワークを作成立る必要がある。これを、通常の距離計算によって行おつとすると、配座数の2乗の時間がかかってしまい、のべ数週間以上の計算時間を必要とする。このような大規模データの処理を高速に行うため、SketchSortというアルゴリズムの設計を行った。本アルゴリズムでは、リガンド結合部位を表す特徴ベクトルを、ますLocality Sensitive Hashingを用いて、ビットベクトルに射影し、その後、プロック単位でソートを行うことによつて類似したペアをしだす。本手法の有用性を示すため、まず、タンパク質側のリガンド結合部位の解析を行った。PDBデータベースから数百万の結合部位を取りだし、その類似度ネットワークを構築し、解析を行った。従来は、計算上の制約から、数万個のレベルまでしか解析が行われていなかったが、新アルゴリズムによって、数百倍の規模にまで拡大できた。この部分の論文については準備中である。本年度、従来から続けてきた共同研究の論文が多数田版ざれた。機械学習技術という点では、すべて本課題に関連し、将来利用可能なものであるため、本年度の成果として示している。
|