2022 Fiscal Year Annual Research Report
テラバイト超データ高速可視化システム等によるALMAデータ検索機能の強化
Project/Area Number |
20K04030
|
Research Institution | National Astronomical Observatory of Japan |
Principal Investigator |
白崎 裕治 国立天文台, 天文データセンター, 助教 (70322667)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 天文データアーカイブ / 分散処理 / データベース / 可視化 / 大規模データ |
Outline of Annual Research Achievements |
ALMA等により取得される多次元データは巨大化の一途をたどっており、2023年時点でファイルあたり300GBを越えるようになってきている。近い将来には1TBも超えることが想定されており、そのような巨大なデータをインターネット経由で利用するための仕組みづくりが急務となっている。本研究ではALMAのデータを複数のサーバに分割配置することにより、必要な空間領域におけるスペクトルデータを高速に抽出しユーザへ提供する機能を開発した。
今回開発したシステムは5台の計算機からなり、各計算機にはそれぞれ 8台の 8TB HDD と 4台の 2TB NVMe SSD が搭載されている。8台のHDDはRAIDボリュームとして一つにまとめられ、5台の計算機の HDD ボリュームから汎用分散ファイルシステムである GlusterFS を構成する。この領域にファイルサイズが 20GB 以上の ALMA のデータを配置した。さらに、40GB以上のデータについては 4台のSSDをRAID0 によりまとめた領域に配置した。ユーザからのアクセスがある度に要求された画像とスペクトルデータを分散配置されてるデータから再構成し提供する。SSD 上のデータについてはほぼ瞬時にユーザのブラウザ上に表示される。HDD 上のデータについては数秒程度の遅延があるが、十分な速度で表示がされることを確認している。本機能はJVO ポータルサイ(http://jvo.nao.ac.jp/portal)におけるALMAデータクイックルックシステム(FITS WebQL v5)として誰でも利用可能となっている。
データ表示機能に加えて ALMA のデータに対してスペクトルラインの検出を行い、その結果をデータベース化し検索できる仕組みも構築した。これにより、スペクトルラインが検出されているデータのみを検索することが可能となっている。
|