研究課題
基盤研究(S)
スパコンに搭載される機器の増大・複雑化により、障害発生率が増加し、システムが実質的に動作しなくなると危惧されており、エクサスケールスパコンでは、既存の技術だけでは課題が残る。このため、初年度は、エクサスケール・アプリケーションに適した耐障害手法の億単位のスレッド時の定量的性質を明らかにすることを目的として研究に従事した。実際、我々は(1)細粒度超並列プロセッサへの適用:「リプレイ手法」により、世界初の複数GPUかつ複数ノードでの安定したチェックポイントに成功した。(2)SSDを用いた高速チェックポイント:またチェックポイントデータのリード・ソロモン符号化とTSUBAME2.0に搭載されたSSDを活用することにより、スケーラブルなチェックポイントと実現した。(3)高信頼ストレージへのチェックポイント:さらに、RDMAを利用し、より少ないオーバーヘッドでチェックポイントを最も信頼性の高い並列共有ファイルシステムへ書き込みを実現した。(4)高い可用性と生産性:このような、耐故障アルゴリズムの実装は、一般ユーザに対して困難であるが、アルゴリズム部をコンポーネント化しフレームワークとして提供することにより、高い生産性と信頼性を両立させた。特に、(2)では、採択率20%と大変選別の厳しい学会であるSC11において、ベストペーバー賞に相当するSpecial Recognition Award for Perfect Scoreおよび日本から発となるGeorge Michael博士フェローシップHonorable Mention(奨励賞)を受賞した。前者は4名の査読者全員が満点を与えたことに対して"特別に"設けられた賞である。このように、我々の効率的なチェックポイントの実現は、学術的インパクトも大きい。
1: 当初の計画以上に進展している
初年度の研究計画である、TSUBAME2.0の前任のTSUBAME1の障害履歴から、エクサスケールシステムに適した耐故障の複合的数理モデルおよびその検証を行い、TSUBAME2.0に搭載されたSSDや並列ファイルシステムを階層的に用いてチェックポイントを行うことにより、エクサスケールシステムへ適用可能性を示した。さらに本年度の計画である、細粒度超並列プロセッサへの適用を、既に一部解決しており、当初の計画以上に進展しているといえる。
より大規模である10億並列・エクサスケールスパコンを対象とした場合、チェックポイントにより信頼性は向上するが一方で、オーバーヘッドも無視することはできない。このため、"細粒度超並列・ヘテロジニアス計算環境に適した新しい耐故障手法やコストモデルの確立"が必要である。特に信頼性と性能を両立するために、複合的数理モデルを用いてこれらの手法を定量化し、初年度に得られた耐故障のコストモデルと組み合わせることにより、最適なチェックポイント戦略を確立する。
すべて 2012 2011 その他
すべて 雑誌論文 (7件) (うち査読あり 7件) 学会発表 (52件) 備考 (1件)
In Proceedings of the Fifth Workshop on General Purpose Processing using Graphics Processing Units (GPGPU-5), ACM Press
ページ: 1-7
10.1145/2159430.2159437
In Proceedings of ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis (SC11), Gordon Bell Paper, ACM Press
10.1145/2063384.2063388
10.1145/2063384.2063389
In Proceedings of ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis (SC11)
10.1145/2063384.2063398
ページ: 1-12
10.1145/2063384.2063427
情報処理学会論文誌コンピューティングシステム,Vol.4, No.4 (ACS 35)
ページ: 169-179
Proceedings of the 20th International Heterogeneity in Computing Workshop (HCW 2011), in conjunction with IEEE IPDPS 2011, The IEEE Press
ページ: 1-10
10.1109/IPDPS.2011.131
http://matsu-www.is.titech.ac.jp/