研究概要 |
今年度は,線形数値演算ライブラリの分散共有メモリアーキテクチャ及び広域分散クラスタ上への並列実装技術に関して,以下の成果を得た. 分散共有メモリアーキテクチャ上での並列数値処理 今年度はIntel社のプロセッサを用いた分散共有メモリ型並列計算機であるNEC AzusA Itaniumサーバ及びIBM x440 Xeonサーバを利用し,分散共有メモリアーキテクチャ上での効率的な並列数値処理についての検討を行った.大規模連立一次方程式の反復解法において,計算の大部分を占める低レベルなBLAS演算の並列化を考える場合,レイテンシを小さくするとともに,ノード内,及びノード間のメモリ帯域幅を十分に確保することが必要となる.評価の結果,AzusAで採用されているOSのメモリアフィニティ機能,及びx440で採用されているノードキャッシュが,性能に関してそれぞれ有効な手法であることが分かった.また,Itaniumプロセッサの高いCPU性能を活かすためのアプリケーションとして高速フーリエ変換を取り上げ,キャッシュを有効利用するとともに分散共有メモリ向けのデータ配置を行うことにより,ピーク性能の12%以上にあたる2GFlops以上の性能を出すことに成功した. 広域分散クラスタ上での並列数値処理 他方,近年広域に分散された世界中の情報資源を統一的に扱うGrid技術に関する研究が多方面で進められている.本研究では,ネットワーク性能のグリッド計算に与える影響に着目し,グローバルコンピューティングのソフトウェアインフラストラクチャに必要とされる様々な要素技術を提供するツール群であるGlobus Toolkitを昨年度に構築したPCクラスタ上に実装し,LU分解を用いてGrid上での並列計算における性能を通信速度の異なる二種類のネットワーク上で比較した.この結果,Globus固有の通信遅延はあるものの,十分な通信帯域幅のある環境では,その影響が無視できる程度であることが分かった.今回の実験はLAN上の理想的な環境で行ったものであり,WAN上に分散した環境においてはより大きな通信遅延を想定しなければならない.しかしながら,本実験の結果は広域環境上での細粒度な科学技術計算について,その可能性を示唆しているといえる.
|