ALMA等により取得される多次元データは巨大化の一途をたどっており、2023年時点でファイルあたり300GBを越えるようになってきている。近い将来には1TBも超えることが想定されており、そのような巨大なデータをインターネット経由で利用するための仕組みづくりが急務となっている。本研究ではALMAのデータを複数のサーバに分割配置することにより、必要な空間領域におけるスペクトルデータを高速に抽出しユーザへ提供する機能を開発した。
今回開発したシステムは5台の計算機からなり、各計算機にはそれぞれ 8台の 8TB HDD と 4台の 2TB NVMe SSD が搭載されている。8台のHDDはRAIDボリュームとして一つにまとめられ、5台の計算機の HDD ボリュームから汎用分散ファイルシステムである GlusterFS を構成する。この領域にファイルサイズが 20GB 以上の ALMA のデータを配置した。さらに、40GB以上のデータについては 4台のSSDをRAID0 によりまとめた領域に配置した。ユーザからのアクセスがある度に要求された画像とスペクトルデータを分散配置されてるデータから再構成し提供する。SSD 上のデータについてはほぼ瞬時にユーザのブラウザ上に表示される。HDD 上のデータについては数秒程度の遅延があるが、十分な速度で表示がされることを確認している。本機能はJVO ポータルサイ(http://jvo.nao.ac.jp/portal)におけるALMAデータクイックルックシステム(FITS WebQL v5)として誰でも利用可能となっている。
データ表示機能に加えて ALMA のデータに対してスペクトルラインの検出を行い、その結果をデータベース化し検索できる仕組みも構築した。これにより、スペクトルラインが検出されているデータのみを検索することが可能となっている。
|