2019 Fiscal Year Research-status Report
Development of a Homogeneous Data Management and Visualization System for Astronomical Multi-Wavelength Open Images Enabled by a Reverse Projection Method onto the Celestial Sphere
Project/Area Number |
19K12244
|
Research Institution | Fukuoka University |
Principal Investigator |
江口 智士 福岡大学, 理学部, 助教 (40647202)
|
Co-Investigator(Kenkyū-buntansha) |
白崎 裕治 国立天文台, 天文データセンター, 助教 (70322667)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | バーチャル天文台 / データベース天文学 / 分散並列処理 / Hadoop |
Outline of Annual Research Achievements |
バーチャル天文台(VO)は、過去の観測データのアーカイブ同士を透過的に結ぶ国際標準のインターフェースである。利用者が目的のデータを見つけ出すためにVO全体を検索対象とすると30分以上待たされた挙げ句、そのデータを実際にダウンロードしてみると、「欲しいデータが実際には含まれない」ということが生じる。これは各VOサービスが提供しているメタデータが不完全なことに起因する。そこで我々は分散並列処理フレームワークHadoopを活用し、VO全体のメタデータを正しく再構築する独自システムの開発に着手した。2019年度は、全VOサービスのメタデータを我々のシステムに集約する作業が完了した。また、収集されたメタデータを精査したところ、多くのサービスで「天文学的には異なるデータであって欲しいデータ同士」が同じアクセスURLを共有していることも判明した。これらメタデータを1つのSQLiteテーブルに集約し、アクセスURLを一意的に取り出せるようにした。 本システムを構成するPCクラスタのCPUには、価格性能比の優れたRyzenシリーズを採用した。このシステムにOSをインストールする作業を簡略化するために、予め必要なパッチや設定を組み込んだLinuxインストールCDイメージを作成した。 今後はHadoop上のデータ処理エンジンSparkを用いて、1)データ本体をHadoop上のファイルシステムHDFSにダウンロードする「ダウンローダー」、2)ダウンロードしたデータに各種座標変換を施す数学ライブラリの開発、3)座標変換の結果をHadoop上のデータベース・エンジンHiveに格納して1つのVOサービスとして提供する「公開システム」の実装を行う。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
世界中の天文データ・アーカイブの集合体であるバーチャル天文台(VO)では、データ検索のために「具体的な1つの観測データ」へのアクセスURLをメタデータという形で配信している。我々の最終目標は、この個別のURLからデータ(天文画像データ)を実際にダウンロードし、天球を表す1つのデータベースにまとめ上げることである。2019年度は既存のVOクローラにより全VOサービスを巡回し、メタデータを複数のパイプ区切りテキストファイル(PSV)としてHadoop上のファイルシステムHDFSに保存した。 PSVファイルの内容を精査したところ、多くのアーカイブがユーザのリクエストよりもずっと広い天球領域の観測データへのアクセスURLを返しており、天文学的には区別したい領域であってもURLを共有していることが判明した。従って、データを個別ダウンロードするのに先立って、HDFS上のPSVファイルを結合して1つのSQLiteデータベースに変換するプログラムを作成し、一意のアクセスURLを得られるようにした。 当初計画では、このURLからデータを一旦OSのローカルなファイルシステムにダウンロードし、中間的なデータベース・テーブルをローカル・ファイルシステムに作り、それをHadoopにインポートするプログラムをC/C++を用いて作成する予定であったが、システムの拡張性を再検討した結果、Scala言語+Sparkを習得するコストを受け入れて、最初から全てをHadoop上で完結すべき」との結論に達した。
|
Strategy for Future Research Activity |
Scala言語は、我々のグループがこれまで開発に使用して来たC/C++やJavaとは異なる体系の開発言語である。しかし、Hadoop上のデータ処理エンジンSpark (Scala言語で記述)を使うことで、Hadoop上のデータベース・エンジンHiveの制御と各種数学演算(特に天文学で使用する各種座標変換)を透過的に行えるようになり、システム全体の見通しが非常に良くなると期待される。2020年の秋を目標に、クロール結果から抽出したアクセスURLから実際にデータをダウンロードする「ダウンローダー」を実装し、データの収集を開始する。また、それらに座標変換を施し、Hiveデータベースに変換する。そして2020年度末には、このデータを1つのVOサービスとして試験公開することを目指す。
|
Causes of Carryover |
開発用ワークステーションの価格交渉結果。 2020年度の海外出張旅費(スペイン)に充当予定(COVID-19のため最安の航空券は購入できない見通しであり、また、開催方法も現時点では不明)。
|