平成26年度に引き続き、Xeon Phiにおける格子QCD計算の性能改善を行うとともに、複数のXeon Phiを用いて並列計算を行った際のスケーラビリティを調べた。組み込み関数によるベクトル化、OpenMPとMPIによる並列化を倍精度の conjugate gradient (CG) 法とマルチシフトCG法に対して行った。また、データ転送量を抑えるためにSU(3)行列の圧縮と再構築を実装した。格子サイズ32^3x12のCG法の実行効率は、Xeon Phiカード1枚を用いた場合が約7.1%であるのに対して、Xeon Phiカード8枚を用いた場合は約2.8%となった。このような格子サイズでは、内部領域の計算時間が短いため袖領域の通信時間を隠ぺいできないことが、性能劣化の原因であることがわかった。格子サイズ32^3x128でXeon Phiカード8枚を用いた場合の実行効率は約6.7%であり、大きい格子サイズではスケーラビリティが良くなることがわかった。格子サイズ32^3x12のマルチシフトCG法の実行効率は、Xeon Phiカード1枚を用いた場合が約4.1%で、Xeon Phiカード8枚を用いた場合は約2.5%となった。マルチシフトCG法はCG法に比べて線形代数計算が多いため、MPIによる性能劣化はCG法よりも小さいが、カードXeon Phiカード単体での性能が出しにくいことがわかった。これについて国際会議Lattice 2015で発表を行った。
|