蛋白質の機能が、局所的な表面部位(活性部位)の特性によって決定されることを利用し、機能未知の蛋白質の分子表面に対して既知の活性部位群から類似した分子表面が存在するかを調べることで、機能を予測することを考える。これを実現するため、本年度は、分子表面データ間の類似性を空間パターン間の距離として定義することにより、効率的に類似蛋白質を検索する手法を開発した。 本手法では、蛋白質の分子表面を数千から数万の頂点から構成される空間パターンとして表現する。2つの空間パターンからそれぞれ取り出した頂点を1対1に対応付け、各頂点間距離の誤差の総和が最小となる頂点の対応が求まったときの誤差和を空間パターン間の距離と定義する。ここで頂点間距離は2頂点の位置・電位・疎水性の差に基づき定義される。 空間パターン間の距離を求めるには、頂点の対応付けの網羅的な組合せを考慮する必要があり、大きな計算量を必要とする。そこで対応スコアを導入することで初期対応を求め、局所探索により近似的に距離を導出する。対応スコァは、空間パターン上のある頂点とそれ以外の全頂点間との相対関係を2つの空間パターンについて求め、得られた相対関係のうち類似するものの個数をカウントしたものであり、これにより一方の空間パターン内の頂点と他方の頂点との位置的な類似性を評価することが可能となる。 このような空間パターン間の距離を用いることで、距離空間インデックスに基づく検索法を定式化し、既存データベース内の分子表面データ相互間の距離を事前に求めておくことにより、精度を落とさずに逐次検索に比較して約12倍の高速検索を実現した。
|