研究課題
いくつかの科学の分野で、データの激烈な増大と多様化により、その解析に極めて多くの計算時間や記憶領域などの資源が費やされていることから、本研究では、データの急激な増大に耐えうるスケーラブルなデータ処理基盤を構築することを目的として、広域に分散した多数のデータ資源を一箇所にデータを転送して集約するのではなく、そのままの位置において仮想的に統合された共有ファイルシステムとしてまとめることで、アクセスできる方式を開発した。本方式では、ファイルはグリッド上でグローバルな名前での管理が可能なファイルシステムに格納している。さらに、データアクセスのパターンに応じて、複数のデータベースにまたがるワークフローを作成し、ワークフローをもとにデータ解析を行うことで、従来のWeb上でのデータベース検索インターフェースでは困難だった、多数のデータベースにまたがるデータアクセスのワークフローをベースとした、データ解析処理の方式を開発した。データベース間の、データの表現形式や用語の違いなどは、個別のデータベースごとにデータの持つ意味情報を格納したメタデータで管理し、このメタデータにより複数のデータベースにまたがる半自動的なデータの関連付けを行った。以上の方式に基づくシステムを開発し、公開されているWebサービスを使って実際に情報統合を行ったところ、特に大量のデータ転送を必要とするワークフローにおいて、個別にWebサービスを呼び出して結果を集約する従来の方式と比べて、全体のデータ転送量の削減と処理時間の短縮が見られ、本方式の有効性が確認できた。
すべて 2006 その他
すべて 雑誌論文 (5件)
情報処理学会論文誌 : 数理モデル化と応用 47・15
ページ: 118-128
Proceedings of World Congress on Medical Physics and Biomedical Engineering (CD-ROM)
Proceedings of International Workshop on Dstibute Applications, Web Services, Tools and GRID Infrastructures for Bioinformatics 6
ページ: 70-74
IPSJ Transactions on Bioinformatics (印刷中)