研究概要 |
今年度は,非構造格子上の代数的マルチグリッド法,及びその並列実装技術に関して以下の成果を得た. 非構造格子上のマルチグリッドアルゴリズム マルチグリッド法は,異方性問題において収束が劣化するため,Semi-coarseningや線緩和法などの手法が提案されている.このうち代数的マルチグリッド法は異方性による影響を受けにくく,前処理法として共役勾配法に適用することによってロバストな計算が可能になるものと予想される.今年度はsmoothed aggregationに基づく代数的マルチグリッド前処理付共役勾配法(AMGCG法)を提案し,256PE構成のクラスタ上で最大1562万次元(250×250×250)の3次元ポアソン方程式を用いてICCG法(localized ILU前処理付CG法)との比較を行なった結果,もっとも大規模な問題では計算時間でICCG法の1/3以下となることが分かった.また,アグリゲートを領域境界から生成し,最も粗いレベルで疎行列並列直接解法を用いることにより,異方性の問題に対しても問題サイズによらずほぼ一定の時間で収束することを示した. 分散共有メモリアーキテクチャ上での効率的な並列数値処理 これらの研究と平行して,Intel社のプロセッサを用いた分散共有メモリ型並列計算機であるNEC AzusA Itaniumサーバ及びIBMx440 Xeonサーバを利用し,今後普及すると考えられる分散共有メモリアーキテクチャ上での効率的な並列数値処理についての検討を行った.大規模連立一次方程式の反復解法において,計算の大部分を占める低レベルなBLAS演算の並列化を考える場合,レイテンシを小さくするとともに,ノード内,及びノード間のメモリ帯域幅を十分に確保することが必要となる.評価の結果,AzusAで採用されているOSのメモリアフィニティ機能,及びx440で採用されているノードキャッシュが,性能に関してそれぞれ有効な手法であることが分かった.また,Itaniumプロセッサの高いCPU性能を活かすためのアプリケーションとして高速フーリエ変換を取り上げ,キャッシュを有効利用するとともに分散共有メモリ向けのデータ配置を行うことにより,ピーク性能の12%以上にあたる2GFlops以上の性能を出すことに成功した.
|