2014 年度実施状況報告書

エクサスケール計算機システムに最適な格子QCDアルゴリズムの開発

研究課題

研究課題/領域番号	25871116
研究機関	独立行政法人理化学研究所
研究代表者	中村宜文独立行政法人理化学研究所, 計算科学研究機構, 研究員 (40598231)
研究期間 (年度)	2013-04-01 – 2016-03-31
キーワード	格子QCD / クリロフ部分空間法 / モンテカルロアルゴリズム
研究実績の概要	エクサスケールシステム計算機でのSBCGrQ法の実行効率を予測するためには、SBCGrQ法が現在運用されている計算機のどのシステム緒言によって律速されているかを特定する必要がある。このため、本年度は現行のMIC（Xeon Phi）クラスタ上でSBCGrQ法の最適化をほぼ限界まで行った。Xeon Phiは倍精度SIMD幅が8、単精度SIMD幅が16である。この広いSIMD幅を利用するため、配列をArray of Structure (AOS) から Structure of Array (SOA) に変更した。変更前の配列は単精度・倍精度ともに[nt][nz][ny][nx][3][4][2]で、倍精度の時の変更後の配列が[nt][nz][ny][nx/8][3][4][2][8]で、単精度の時の変更後の配列が[nt][nz][ny][nx/16][3][4][2][16]である。この変更により、演算部分のベクトル化率を大幅に上げることができた。また、L1プリフェッチとL2プリフェッチをよどみなく行うことで実行効率が約1%から約7%に向上した。最適化によりメモリ-CPU間のデータ転送速度はストリームベンチマークと同程度の150GB/sになった。これは、SBCGrQ法をメモリバンド幅限界まで最適化できたことを意味する。これ以上の実行効率の向上を得るには、SU(3)行列の圧縮と再構築等、データ転送量を抑えたアルゴリズムが必要であることが分かった。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由困難であると予想していたMICクラスタでのSBCGrQ法の最適化を計画通りハードウェアの限界値付近まで引き上げることができたため。
今後の研究の推進方策	当初、GPUクラスタでもSBCGrQ法の最適化を行う予定であったが、MICの性能がGPUの性能と同程度になりつつあることから、MIC上でのSBCGrQ法のさらなる最適化を進めることとした。次年度はCPUクラスタとMICクラスタで最適化されたSBCGrQ法をRHMC法に組み込み、配位生成アルゴリズム全体のコストを系統的に調べる。
次年度使用額が生じた理由	初年度、Xeon Phi搭載ワークステーションを予定より安く購入できた。その次年度使用額を計算機使用料とファイルサーバ購入に充てる予定だったが、昨年度、京都大学のMICクラスタを無償で使えたため、その必要がなくなった。また、米国で開催される国際会議への参加を予定していたが都合がつかず取りやめた。
次年度使用額の使用計画	配位の有効利用のため、配位保存用のファイルサーバを購入する予定である。