2017 Fiscal Year Annual Research Report
Preliminary study of an inexpensive implementation methodology for an all-sky oriented astronomical data archive system powered by Hadoop for huge observational multi-wavelength data set
Project/Area Number |
15K17501
|
Research Institution | Fukuoka University |
Principal Investigator |
江口 智士 福岡大学, 理学部, 助教 (40647202)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | バーチャル天文台 / クラウドコンピューティング / 分散コンピューティング / データベース / Hadoop / Hive / ALMA望遠鏡 / ビッグデータ |
Outline of Annual Research Achievements |
天文学データのサイズは当初の予想通り順調に増え続けており、平成29年度にはALMA望遠鏡で得られた、1天体30 GBを超える標準較正済みイメージ・データが複数公開された。ALMAは電波望遠鏡であるが、可視・赤外望遠鏡による観測データも今後巨大化が見込まれる。いっぽう、バーチャル天文台の使命として「多波長データを統合的に取り扱う」というものがあるが、同じ天体の画像データであっても、電波望遠鏡と可視・赤外望遠鏡とではイメージの各画素と天球座標とを対応付ける関数が異なるため、それらを考慮したうえで正しく検索できるような形でデータベースに取り込む必要がある。そこでHEALPixという全天球を等立体角に分割・インデックス化するアルゴリズムおよび天文データの各種の複雑な座標変換を行うWCSLIBというライブラリを活用し、巨大なALMA望遠鏡のイメージ・データの各画素をHEALPixインデックスへ高速に(並列に)変換しつつ、SQLiteと呼ばれる移植性の高いデータベースのテーブルに格納するソフトウェアを作成した。この際元のイメージの画素とHEALPixのピクセルの幾何学的形状の違いを正しく考慮するよう細心の注意を払った。このSQLiteデータベースに変換されたイメージ(合計375 GB)を、Amazon Web Service (AWS)と呼ばれるクラウド・サービス上で動作している分散処理フレームワークHadoopおよびそれを用いたデータベースの実装であるHiveに取り込み、その取り込みに掛かる時間およびデータの検索時間のベンチマークを行った。Hiveのパラメータ・チューニングにより、処理の並列度が65 %の状態で、AWS上の25 GBのデータベース・ファイルに圧縮することができた。
|