研究課題
"細粒度超並列・ヘテロジニアス計算環境に適した新しい耐故障手法とコストモデルの確立"を行った。特に信頼性と性能を両立するために、複合的数理モデルを用いてこれらの手法を定量化し、初年度に得られた耐故障のコストモデルと組み合わせることにより、最適なチェックポイント戦略を確立する。(1)細粒度超並列計算環境に適した階層型Group-orientedチェックポイント: 障害復旧の高速化手法として知られているメッセージロギング技術と、昨年度の成果である冗長符号を用いたチェックポイント型耐故障性インターフェース(FTI)を複合的に活用し、また、メッセージロギング時のグループとチェックポイントの冗長符号化時のグループを、ネットワークのトポロジーを考慮して階層的にグルーピングすることにより、従来に比べ、細粒度超並列計算を要する津波シミューレーションコードにおいて、より効率的なチェックポイントを実現した。 (2)階層型チェックポイントの複合的数理コストモデル:一般に並列ファイルシステムは、チェックポイント先として最も信頼性が高い場所であるが、一方で並列ファイルシステムを用いた階層型チェックポイントでは、数百GPU実行において性能向上が飽和してしまい、エクサフロップに向けてのスケーリングは困難であったが、計算とは非同期的に並列ファイルシステムへチェックポイント書き出し、また複合的数理・確率モデルに基づき、必要で十分な頻度でチェックポイントを行うことにより、津波のシミュレーションなど多くの流体計算でみられる等方メッシュの差分法による直接解法を行うHimenoベンチマークにおいて、従来型の階層型チェックポイントに比べ最大で1.1から1.8倍以上の効率化を実現した。
1: 当初の計画以上に進展している
25年度の計画であった、耐故障システムのオーバーヘッドの削減を、(1)細粒度超並列計算環境に適した階層型Group-orientedチェックポイントと(2)階層型チェックポイントの複合的数理コストモデル、として既に一部解決しており、当初の計画以上に進展しているといえる。
これまでの耐故障アルゴリズムおよびシステムの改良を進めるとともに、様々な障害に対応 した障害復旧手法を考案する。それには、ハードウェアだけでなく、ソフトウェアの状態を監視・記録し自律的に復旧するシステムが不可欠であるが、数十億並列にスケールさせることは困難である。このため、障害復旧手のスケーラビリティ及びこれまで確立してきた様々な機構との親和性の検証し、エクサスケールシステムに対応しうる障害復旧機構の考案を行う。
すべて 2013 2012 その他
すべて 雑誌論文 (15件) (うち査読あり 15件) 学会発表 (41件) (うち招待講演 22件) 図書 (1件) 備考 (1件)
In Proc. of the 13th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid 2013)
巻: - ページ: -
Proceedings of IEEE IPDPS 2013, Boston, MA, the IEEE Press
In Proc. of International Supercomputing Conference (ISC’13)
In FTXS'2013, the Workshop on Fault-Tolerance for HPC at Extreme Scale, in conjunction with the 22nd International ACM Symposium on High Performance Parallel and Distributed Computing (HPDC'13)
In Proc. of the 3rd International Workshop on Parallel Algorithm and Parallel Software (IWPAPS 2012), in conjunction with Cluster 2012
10.1109/ClusterW.2012.34
In Proc. of the 12th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGrid 2012)
10.1109/CCGrid.2012.96
In Proc. of the Seventeenth IEEE Symposium on Computers and Communications (ISCC’12), IEEE Press
10.1109/ISCC.2012.6249352
In Proc. of the 2012 International Conference on Parallel and Distributed Processing Techniques and Applications (PDTPA’12)
In Proc. of Tenth International Workshop on Algorithms, Models and Tools for Parallel Computing on Heterogeneous Platforms (HeteroPar’2012) in conjunction with EuroPar’2012
In Proc. of International European Conference on Parallel and Distributed Computing (EuroPar 2012)
In Proc. of IEEE Cluster 2012, IEEE Press
10.1109/CLUSTER.2012.71
In Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12)
10.1109/SC.2012.100
In Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12), Salt Lake City, IEEE Press
10.1109/SC.2012.46
10.1109/SC.2012.67
http://matsu-www.is.titech.ac.jp/