これまでに設計した時空間タイリング技法を適用した各種コードに対して、複数のマルチコアプロセッサを持つノードから構成される大規模並列システムと、マルチコアプロセッサとメニーコアプロセッサからなる小規模な並列システムの双方を用いて、性能評価とそれに基づく改良を行った。特にメニーコアプロセッサについて、キャッシュを意識したループ分割によるループ単純化、ループボディでのメモリアドレス計算の単純化、およびマルチグリッド法に関してはループ運搬依存の部分的な除去など、メニーコアプロセッサ特有の新たなコード生成技法を開発した。 またFDTD法を対象とした前年度の研究で、時空間タイルの各次元サイズを適切に調整するオフライン自動チューニングが有効であることが明らかになっており、この手法の他の問題への適用を詳細に検討した。その結果、最内ループに対応する次元のサイズを隣接ストリーム間のキャッシュデータ再利用性が保たれる範囲で大きくすること、メモリからキャッシュへのロードやスレッド間のデータ共有のためのトラフィックを小さくするためにタイルの多次元分割が有効な場合があること、タイル内のスレッド分割だけでなく複数タイルのスレッド並列処理も組み合わせることが有効であること、などが明らかになった。
|