2011 Fiscal Year Annual Research Report
10億並列・エクサスケールスーパーコンピュータの耐故障性基盤
Project/Area Number |
23220003
|
Research Category |
Grant-in-Aid for Scientific Research (S)
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
Co-Investigator(Kenkyū-buntansha) |
實本 英之 東京大学, 情報基盤センター, 助教 (00545311)
|
Keywords | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / ヘテロジニアスアーキテクチャ / 耐障害性 / チェックポイント・リスタート |
Research Abstract |
スパコンに搭載される機器の増大・複雑化により、障害発生率が増加し、システムが実質的に動作しなくなると危惧されており、エクサスケールスパコンでは、既存の技術だけでは課題が残る。このため、初年度は、エクサスケール・アプリケーションに適した耐障害手法の億単位のスレッド時の定量的性質を明らかにすることを目的として研究に従事した。実際、我々は(1)細粒度超並列プロセッサへの適用:「リプレイ手法」により、世界初の複数GPUかつ複数ノードでの安定したチェックポイントに成功した。(2)SSDを用いた高速チェックポイント:またチェックポイントデータのリード・ソロモン符号化とTSUBAME2.0に搭載されたSSDを活用することにより、スケーラブルなチェックポイントと実現した。(3)高信頼ストレージへのチェックポイント:さらに、RDMAを利用し、より少ないオーバーヘッドでチェックポイントを最も信頼性の高い並列共有ファイルシステムへ書き込みを実現した。(4)高い可用性と生産性:このような、耐故障アルゴリズムの実装は、一般ユーザに対して困難であるが、アルゴリズム部をコンポーネント化しフレームワークとして提供することにより、高い生産性と信頼性を両立させた。特に、(2)では、採択率20%と大変選別の厳しい学会であるSC11において、ベストペーバー賞に相当するSpecial Recognition Award for Perfect Scoreおよび日本から発となるGeorge Michael博士フェローシップHonorable Mention(奨励賞)を受賞した。前者は4名の査読者全員が満点を与えたことに対して"特別に"設けられた賞である。このように、我々の効率的なチェックポイントの実現は、学術的インパクトも大きい。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
初年度の研究計画である、TSUBAME2.0の前任のTSUBAME1の障害履歴から、エクサスケールシステムに適した耐故障の複合的数理モデルおよびその検証を行い、TSUBAME2.0に搭載されたSSDや並列ファイルシステムを階層的に用いてチェックポイントを行うことにより、エクサスケールシステムへ適用可能性を示した。さらに本年度の計画である、細粒度超並列プロセッサへの適用を、既に一部解決しており、当初の計画以上に進展しているといえる。
|
Strategy for Future Research Activity |
より大規模である10億並列・エクサスケールスパコンを対象とした場合、チェックポイントにより信頼性は向上するが一方で、オーバーヘッドも無視することはできない。このため、"細粒度超並列・ヘテロジニアス計算環境に適した新しい耐故障手法やコストモデルの確立"が必要である。特に信頼性と性能を両立するために、複合的数理モデルを用いてこれらの手法を定量化し、初年度に得られた耐故障のコストモデルと組み合わせることにより、最適なチェックポイント戦略を確立する。
|
Research Products
(60 results)
-
-
[Journal Article] Peta-scale Phase-Field Simulation for Dendritic Solidification on the TSUBAME 2.0 Supercomputer2011
Author(s)
Takashi Shimokawabe, Takayuki Aoki, Tomohiro Takaki, Akinori Yamanaka, Akira Nukada, Toshio Endo, Naova Maruyama, Satoshi Matsuoka
-
Journal Title
In Proceedings of ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis (SC11), Gordon Bell Paper, ACM Press
DOI
Peer Reviewed
-
[Journal Article] Petaflop Biofluidics Simulations On A Two Million-Core System2011
Author(s)
Massimo Bernaschi, Mauro Bisson, Toshio Endo, Massimiliano Fatica, Satoshi Matsuoka, Simone Melchionna, Sauro Succi
-
Journal Title
In Proceedings of ACM/IEEE International Conference for High Performance Computing, Networking, Storage and Analysis (SC11), Gordon Bell Paper, ACM Press
DOI
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] Analyst Crossfire Session2011
Author(s)
Satoshi Matsuoka
Organizer
International Supercomputing 2011 (ISC'11)
Place of Presentation
Congress Center Hamburg, Hamburg Germany(Invited panelist)
Year and Date
2011-06-23
-
[Presentation] Hot Seat Session 012011
Author(s)
Satoshi Matsuoka
Organizer
International Supercomputing 2011 (ISC'11)
Place of Presentation
Congress Center Hamburg, Hamburg Germany(Invited panelist)
Year and Date
2011-06-21
-
-
-
-
-
-
-
-
-
[Presentation] 25th Year Panel : LOOKING BACK2011
Author(s)
Satoshi Matsuoka
Organizer
The 25th IEEE International Parallel & Distributed Processing Symposium (IPDPS 2011)
Place of Presentation
Anchorage, USA(Invited Panelist)
Year and Date
2011-05-17
-
-
-
-
-
-
-