平成22年度は、数百万を超えるタンパク質のリガンド結合サイトから、類似したペアを網羅的に探索するシステムを、従来より開発してきたSketchSortアルゴリズムを用いて実装した。それをPDBに含まれる全タンパク質の全ポケットに適用したところ、8000万を超える結合サイトのペアを発見した。詳しい解析の結果、機能未知のポケットの中に、他のサイトとの類似性によって、新規機能が強く示唆されるケースも発見することができた。この成果は、論文にまとめ、Proteins誌に投稿した。現在、改訂中である。 これと並行して、多数のリガンド間の高速な全ペア類似度検索を可能にするため、化学化合物の性質を表すフィンガープリントと呼ばれる特徴ベクトル向けのSketchSortアルゴリズムを開発した。PubChemデータを用いた実験において、従来のフィンガプリント検索手法と比較すると遥かに高速であることが確認された。この成果は、現在MolecularInformatics誌に投稿中である。さらに、リガンド用のSketchSortを、創薬統合環境MOE上で動作させるため、SVL言語に移植中である。これが完成すれば、一般に公開し、多くの研究者に提供する予定である。 高速全ペア検索のアイデアは、タンパク質関連のみならず、DNA配列にも適用することができる。本年度は、次世代シークエンサの配列データの中なら編集距離の意味で類似したものを高速に発見できるSlideSortというアルゴリズムも開発し、Bioinformatics誌に発表した。これにより、従来は非常に難しかった大量配列の階層的クラスタリングが可能になった。
|