本研究では、広域計算技術を積極的に活用することにより、蛋白質の三次元表面構造(空間パターン情報)の網羅的処理による機能解析(構造からの機能予測、機能発現部位の発見など)を実現する枠組について検討している。本年度は、既に提案している蛋白質表面データの比較手法をもとに、広域計算環境下での利用を想定した表面類似蛋白質高速検索システムProSurFinをGlobus Toolkitを用いて実装した。ProSurFinは、クライアント計算機、仲介ホストならびに複数のマスタースレーブ並列計算機から構成される。複数の並列計算機は、処理の均等化を図るため、複数の論理クラスタに再構成され、各論理クラスタにおいて2つの蛋白質表層間の比較が実行される。この枠組においては、いかに適切な論理クラスタを形成するか、すなわち、クラスタリングパターンの形成法が重要となる。そこで、類似蛋白質検索手法の処理内容の分析をもとにクラスタリングパターンの性能評価尺度を定式化した。表面比較処理は、ベクトルマッチングフェーズと局所探索フェーズのそれぞれにおいて並列化され、MPIを用いて実装されているが、両フェーズは、逐次的に実行され互いに独立な処理である。そこで、各処理に対して要求される計算時間を、計算ノードの性能指標、ネットワーク遅延などのパラメータをもとに定式化し、各種係数を実験により法定した。 3台のPCクラスタの混成環境上にProSurFinを構築し、各種クラスタリングパターンに対する性能評価値ならびに実処理時間について計測することで、定式化した性能評価尺度が検索時間に対する正確な見積りを与えていることを検証した。また、PCクラスタを複数の論理クラスタに分割することにより、検索処理全体の性能向上が認められ、本システムの有効性を確認した。
|