2010 Fiscal Year Annual Research Report
大規模科学技術データのための分析データベースシステムの研究開発
Project/Area Number |
22800086
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)
|
Keywords | データベース管理システム / eサイエンス / 並列データベースシステム / 分散処理システム / 情報システム |
Research Abstract |
天文学、生命科学、地質といった科学技術分野で、国際的な情報共有が進んでいる。今後、学際的に巨大データを扱うデータ指向の科学においで、蓄積された膨大な科学技術データの中から有益な知見を見出すための高度なデータ分析技術の重要性が増すのは必至である。しかし、従来のデータベースシステムは細かい粒度のトランザクション処理を想定して設計されているため、バッチ的に複雑なデータ分析処理を扱うのは不向きである。現状のオープンソースの関係データベースは扱えないような100GB以上~ペタバイトの範囲のデータを扱うことは困難である。科学者が大規模データから有益な知識を得るためには、テラ~ペタバイト級の科学技術データを扱うことが可能な分析データベースシステムの整備が急務である。 こうした背景を受けて、本研究では、22-23年の二年計画でテラ~ペタバイト級の科学技術データを扱うためのデータ分析基盤を開発している。特に,科学技術データを適用対象とし,ゲノム情報処理等の分野融合プロジェクトへ最終的に適用することを目指している。 平成22年度は、申請者が研究開発中の汎用の分析データベースを科学技術データベース用途に移植を行った。これによって、最終的な達成にむけて、基礎とするシステムの実装と評価を完了した。 現時点の成果としては、33台の計算機クラスタ環境において、競合システムHadoop/Hiveに対して顕著な性能面での優越(最大22.3倍、平均8.97倍)があることを確認している。また、本研究で開発したデータ分割配置手法の特許申請を行った。 分野融合プロジェクトへの適用については、産業技術総合研究所の地球観測グリッド研究グループが参加する月周回衛星「かぐや」(http://www.kaguya.jaxa.jp/)のスペクトルデータの解析に本研究の成果を適用することを目標に、予備的な評価をおこなった。
|