研究課題
タンパク質に結合するリガンドの配座予測システムを構築する際に問題となるのは、一つのリガンドが取り得る配座の数が、百万を超えるほど多数になるという点である。最適配座の予測を、ガウシアンプロセスなどを用いて行う際には、まず類似した配座をつないだ類似度ネットワークを作成立る必要がある。これを、通常の距離計算によって行おつとすると、配座数の2乗の時間がかかってしまい、のべ数週間以上の計算時間を必要とする。このような大規模データの処理を高速に行うため、SketchSortというアルゴリズムの設計を行った。本アルゴリズムでは、リガンド結合部位を表す特徴ベクトルを、ますLocality Sensitive Hashingを用いて、ビットベクトルに射影し、その後、プロック単位でソートを行うことによつて類似したペアをしだす。本手法の有用性を示すため、まず、タンパク質側のリガンド結合部位の解析を行った。PDBデータベースから数百万の結合部位を取りだし、その類似度ネットワークを構築し、解析を行った。従来は、計算上の制約から、数万個のレベルまでしか解析が行われていなかったが、新アルゴリズムによって、数百倍の規模にまで拡大できた。この部分の論文については準備中である。本年度、従来から続けてきた共同研究の論文が多数田版ざれた。機械学習技術という点では、すべて本課題に関連し、将来利用可能なものであるため、本年度の成果として示している。
すべて 2010 2009 その他
すべて 雑誌論文 (3件) (うち査読あり 3件) 備考 (1件)
BMC Bioinformatics 11, Suppl.1
ページ: S31
Bioinformatics 25
ページ: 2735-2743
Advances in Neural Information Processing Systems 22
ページ: 916-924
www.cbrc.jp/~tsuda/