2004 Fiscal Year Annual Research Report
空間パターン情報の広域計算処理による蛋白質機能解析
Project/Area Number |
16016259
|
Research Institution | Osaka University |
Principal Investigator |
大川 剛直 大阪大学, 大学院・情報科学研究科, 助教授 (30223738)
|
Keywords | バイオインフォマティクス / 蛋白質 / 広域計算技術 / 機能解析 / 並列計算 / 空間パターン / 分子表面 / データマイニング |
Research Abstract |
本研究では、蛋白質の機能解析に有用な三次元構造情報の処理技術について開発を進めている。本年度は、これまでに開発を進めてきた蛋白質表面モチーフ発見手法SUMOMOをもとに、有意なモチーフのみを自動抽出する方式を提案するとともに、SUMOMO全体の並列化実装を実施した。 機能部位などの局所構造は保存性が強く、いくつかの蛋白質に共通して見られる。また、機能部位は機能が発現するために必要な特有の表面形状・物性をもつため、普遍的な形状・物性ではなく、同様の機能を持つ特定の蛋白質間において類似している。そこで、局所構造の類似性に基づき蛋白質を分類し、同一クラスタ内で固有に頻出するものを有意性の高い表面モチーフと判断する。具体的には、各蛋白質を、抽出モチーフをもとにベクトル表現し、コサイン尺度により、類似度を定義する。定義した類似度に基づき、クラスタリングを行い、TF-IDF法に準拠した考え方で、各蛋白質クラスタにおける表面モチーフの重要度を求め、フィルタリングする方式を提案した。 並列化実装にあたっては、マスター・ワーカーモデルを用い、最も処理時間を要するモチーフ候補結合処理の並列化を図った。各ワーカーには、モチーフ候補の抽出元蛋白質を基準として担当するモチーフ候補を限定し、必要なメモリサイズを削減した。また、各蛋白質から得られた単位表面の総数とワーカーの処理性能を考慮し、負荷を平均化するように蛋白質の割当を決定する方式を導入した。 フィルタリングにより、機能部位を保存したまま表面モチーフを14.1%に削減でき、提案手法の有効性を確認した。また、並列化に関する実験の結果、2台、5台、8台の並列化で、それぞれ、2倍、3倍、5倍の速度向上が確認された。本年度の成果を踏まえ、来年度は、より大規模な並列計算環境における特性評価を実施する予定である。
|