研究領域 | なぜ宇宙は加速するのか? - 徹底的究明と将来への挑戦 - |
研究課題/領域番号 |
16H01104
|
研究機関 | 金沢工業大学 |
研究代表者 |
中野 淳 金沢工業大学, 工学部, 教授 (70735620)
|
研究期間 (年度) |
2016-06-30 – 2018-03-31
|
キーワード | 天文学 / すばる望遠鏡 / 測光的赤方偏移 / 機械学習 / ディープラーニング |
研究実績の概要 |
本研究は、すばる望遠鏡の広視野撮像装置(HSC)による天体の撮像データだけをもとに天体までの距離を推定するモデルを構築し、評価することを目的としている。そのような距離の推定は測光的赤方偏移(photo-z)と呼ばれる。HSCは分光観測と比較して、単位時間あたりより多くの天体を観測できる一方で、周波数空間では低い分解能(基本的に5バンドのフラックスデータ)しか提供できないというトレードオフがある。 28年度では、まず5バンドのフラックスデータをもとに、従来からよく知られた統計手法を用いて赤方偏移の推定を行い、その精度が不十分であることを確認した。その根本原因についても、データに統計的な非線形変換を施し、3次元空間にマッピングして可視化することにより定性的に確認できた。すなわち、似たフラックスでも距離が非常に異なる天体群の存在である。打開策としては、フラックスの生成過程を記述する物理法則(恒星や銀河の進化論など)を援用する方法と、予測に使われてはいなかったデータも総動員する方法が考えられるが、本研究では後者のデータ駆動型のアプローチを採った。具体的には、フラックスとして積分される前のバンド毎の生撮像データをもとに赤方偏移を予測するモデルを、ディープラーニングの一手法である畳み込みニューラルネットワークを用いて構築した。このモデルは従来手法と比べると、特に大きく予測を誤るケース(誤差15%以上)をほぼ半減させることができる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
5バンドのフラックスを解析対象とした従来手法による予測モデルの構築については、計画通りスムーズに実施完了した。次の生撮像データを用いたディープラーニングによるモデル構築にあたっては、STARS (Subaru Telescope Archive System) から取得したFITSファイルから学習対象となる天体部分のみを切り出すデータ生成パイプラインを実装し、それをもとに畳み込みニューラルネットワークによる学習を行う部分についてはGoogleが公開しているTensorFlowをベースに実装した。現時点でのニューラルネットのアーキテクチャーは、予備調査をもとに、ある程度決め打ちで3段の畳み込み層と全結合層からなるものであるが、まだ広範なハイパーパラメータ空間の探索の余地がある(層の数、活性化関数の種類、畳み込み層のフィルターのサイズ等)。この程度のネットワークであれば、5万天体の学習に要する時間は一組のハイパーパラメータあたりGPU搭載マシンで30-60分である。基本的にオープンデータを用いたパイプラインなので、作成したコードは将来、まずは研究者コミュニティ、さらには一般への公開を考えている。
|
今後の研究の推進方策 |
1) 撮像観測から得られる天体の大きさや形態といった情報を加味した赤方偏移の予測: 28年度に作ったプロトタイプ(畳み込みニューラルネット [CNN] による予測モデル)の精度向上に努める。深層学習では隠れ層の段数、各層におけるノードの数、各ノードにおける活性化関数の種類等、その構成において非常に高い自由度を持つため、最適モデルの構築にあたっては直交する様々なパラメータの組み合わせを試す必要がある。個々の学習における計算上のボトルネックは基本的に行列の掛け算であり、これはGPU により大幅な高速化が可能であるため、このフェーズでは現在保有するGPU 搭載のワークステーションに加えて、本年度に新規購入する計算機により並列でパラメータ空間の探索を行う。 2) 測光的赤方偏移が信頼できないような天体を効率よく見つけるアルゴリズムの開発: CNN による最適モデルの構築が完了した時点でも、訓練用データの精度などから、モデルの予測値と食い違いがある天体が一定数生じることになる。ここではそのようなintractable な天体を判別・除外することによって、well-behaved な天体に対して、学習モデルがより良く赤方偏移を予測できるようにする。具体的には上で述べたように異なる機械学習アルゴリズムで大きく予測が異なる天体や、CNN が予測値とともに出力する確度がある閾値以下の天体を学習対象から除外して、残りのデータで再学習させるなどの方法をとる。
|