天文学、生命科学、地質といった科学技術分野で、国際的な情報共有が進んでいる。今後、学際的に巨大データを扱うデータ指向の科学において、蓄積された膨大な科学技術データの中から有益な知見を見出すための高度なデータ分析技術の重要性が増すのは必至である。しかし、従来のデータベースシステムは細かい粒度のトランザクション処理を想定して設計されているため、バッチ的に複雑なデータ分析処理を扱うのは不向きである。現状のオープンソースの関係データベースでは、100GB以上~ペタバイトの範囲のデータを扱うことは困難である。科学者が大規模データから有益な知識を得るために、テラ~ペタバイト級の科学技術データを扱うことが可能な分析データベースシステムの整備が急務である。 こうした背景を受けて、本研究では、22-23年の二年計画でテラ~ペタバイト級の科学技術データを扱うためのデータ分析基盤を開発した。平成23年度は最終目標である大規模科学技術データ管理への適用に向けてシステムの評価を行い、査読付き論文誌にて発表を行った。また、前年度の積み残し課題であるSQLと連携する分散処理のための並列処理言語の開発を完了した。一部の関係データベースでは業務ロジックをデータベース内で実行するSQL拡張(PL/SQL等)を採用しているが、本計画では、そうした手続き型のSQL拡張に対して更に分散処理のサポートを追加したものである。この研究成果はDEIM2012にて、学会発表を行った。また、産総研のGEO Gridプロジェクトへの適用に向けて、提案システムの実用面での整備を進めた。
|