2013 Fiscal Year Annual Research Report

１０億並列・エクサスケールスーパーコンピュータの耐故障性基盤

Research Project

Project/Area Number	23220003
Research Institution	Tokyo Institute of Technology
Principal Investigator	松岡聡東京工業大学, 学術国際情報センター, 教授 (20221583)
Co-Investigator(Kenkyū-buntansha)	實本英之東京大学, 情報基盤センター, 助教 (00545311)
Project Period (FY)	2011-05-31 – 2016-03-31
Keywords	ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障技術 / データ圧縮 / チェックポイント・リスタート / バースト・バッファー
Research Abstract	本年度は、耐障害システム全体のオーバーヘッドを削減するため、(1) チェックポイントデータの圧縮と(2)バースト・バッファーを用いたチェックポイント戦略 (coordinated/ uncoordinated)についての研究を行った。具体的に、(1) チェックポイントデータの圧縮では、科学技術アプリケーションでよく見られるチェックポイントデータの特徴を活かして、JPEG-2000で使用されているウェーブレット変換の多重解像度解析・量子化・符号化を利用することで、データサイズをおよそ1/10まで削減することができた。また、(2) バースト・バッファーを用いたチェックポイント戦略については、米国ローレンス・リバモア国立研究所のBronis R de. Supinski氏と共同で、将来の高信頼スパコンの実現に向けて、バースト・バッファーを備えた、階層型ストレージの信頼性やCoordinated、Uncoordinatedチェックポイントなどの既存手法の適用性をTSUBAME及びLLNLの複数のスパコンを対象とした検証実験を行った。これは、前年度で提案した階層型チェックポイントの複合的数理モデルをベースとしており、これと制限付き自由文脈文法を用いたストレージ・モデルと組み合わせることで、より多くのアーキテクチャに対応可能なモデルへと拡張した。このモデルを用いた検証では、バースト・バッファーとUncoordinatedチェックポイントを併用することにより(Uncoordinated Burst Buffer)、従来型のストレージ・アーキテクチャ及びチェックポイント手法 (Coordinated Flat Buffer) に比べ、数十倍の効率化が実現できることを定量的に立証した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 我々は、9.研究実績で述べた通り、平成25年度までの研究目標を達成し、かつ国内・国際会議に於いて、既に研究成果を発表している。また、幾つかの研究は当初の計画の一部を前倒しで行っている。具体的に、我々は次期TSUBAME3.0へのシステム統合のために、あらゆる側面から耐故障基盤の実現に向けて研究を行っている。中でもスパコンのように、高度に階層化されたネットワークでは、リンク故障に対する、自律的耐故障が重要であるが、ルーティング・テーブル更新では、デッドロックの問題などが内包している。そのため、平成24年度から、ルーティング・アルゴリズムに精通した、米国オークリッジ国立研究所のJens Domke氏を招聘し、自律的耐故障機構の実装及び実システムへの統合に向けた、アルゴリズムの開発にあたっている。これは、平成27年度の研究計画の自律的耐故障機構の実装のためのシステム統合の一部にあたる。また、平成23年度に開発されたFTIは、既にLGPLライセンスでオープンソースのソフトウェアとして公開し、国際会議SC13のEmerging Technologies Boothにおいて、流布活動を行った。特に、スパコン分野において最大規模の国際学会であるSC13での流布活動は、世界的インパクトは大きいと期待される。これは、平成27年度研究計画のオープンソースとして公開・流布活動にあたる。以上のように、平成25年度までの研究計画は達成されており、また、幾つかの研究課題に対し、当初の計画の一部を前倒しで行っており、”当初の計画以上に進展している。”と、言える。
Strategy for Future Research Activity	我々は、10億並列・エクサスケールスーパーコンピュータの耐故障生基盤の確立のため、平成26年度は、当初の研究計画通りに、「エクサスケールシステムに対応し得る障害復旧機構の考案」を行う。これまで開発してきたアルゴリズム及び、システムの改良を進めるとともに、様々な障害に対応した障害復旧手法を考案することが必要となっている。それには、ハードウェアだけでなくソフトウェアの状態を監視し記録するシステムが不可欠であるが、数十億並列にスケールさせることは困難である。更にTSUBAME2.0は設計時から既に通常のスーパーコンピュータより遥かに多い、数十にものぼる温度・電力・ファン・電源などの各種センサーが装備されており、OSの実行状態報告を含めて多くのモニタリング情報のデータストリームが発生する。これらを正にGPUが得意とするストリーム処理に適合させ、莫大なデータを統計的に処理することによって障害を検出・予測する。また、自律的に障害復旧を行う為に、様々なシナリオを想定した障害復旧手法をシステムプログラマがあらかじめ提供し、システムがシナリオ学習を経て動的に選択するようにする。これは、超細粒度並列かつヘテロジニアスな計算環境に適した障害復旧手法が選択される場合、システムの不均質性(CPUとGPUなど)やペタバイト級の実行データの分散チェックポイントや、あるいは他手法との競合から、単一のポリシーでは最適な復旧を行うのが不可能であるからである。これらの回復手法のエクサまでのスケーラビリティ、及び先年度確立してきた様々な機構との親和性の検証が主な研究内容となる。

Research Products
(15 results)

All 2014 2013

All Journal Article (7 results) (of which Peer Reviewed: 3 results) Presentation (7 results) (of which Invited: 5 results) Book (1 results)

[Journal Article] A User-level InfiniBand-based File System and Checkpoint Strategy for Burst Buffers2014
- Author(s)
  Kento Sato, Kathryn Mohror, Adam Moody, Todd Gamblin, Bronis R de. Supinski, Naoya Maruyama and Satoshi Matsuoka
- Journal Title
  
  In Proceedings of 2014 14th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing (CCGrid)
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] FMI: Fault Tolerant Messaging Interface for Fast and Transparent Recovery2014
- Author(s)
  Kento Sato, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski, Naoya Maruyama and Satoshi Matsuoka
- Journal Title
  
  In Proceedings of the International Conference on Parallel and Distributed Processing Symposium 2014 (IPDPS2014)
  
  Volume: - Pages: -
- Peer Reviewed
[Journal Article] Energy-aware I/O Optimization for Checkpoint and Restart on a NAND Flash Memory System2013
- Author(s)
  Takafumi Saito, Kento Sato, Hitoshi Sato and Satoshi Matsuoka
- Journal Title
  
  In Proceedings of Fault-Tolerance for HPC at Extreme Scale 2013 (FTXS2013) in conjunction with the International Symposium on High Performance Parallel and Distributed Computing (HPDC13)
  
  Volume: - Pages: pp41-48
- DOI
  10.1145/2465813.2465822.
- Peer Reviewed
[Journal Article] エクサスケールスパコンに向けた耐故障性の評価― TSUBAME2.0を例にして ―2013
- Author(s)
  松岡聡、佐藤賢斗、遠藤敏夫
- Journal Title
  
  情報処理学会研究報告 HPC-141
  
  Volume: 22 Pages: 1-8
[Journal Article] Burst SSD Buffer: Checkpoint Strategy at Extreme Scale2013
- Author(s)
  Kento Sato, Satoshi Matsuoka, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski and Naoya Maruyama
- Journal Title
  
  IPSJ SIG Technical Reports 2013-HPC-141
  
  Volume: 19 Pages: 1-9
[Journal Article] 適切なチェックポイント周期を与えるアプリケーションレベルチェックポイントライブラリ2013
- Author(s)
  實本英之, 鴨志田良和
- Journal Title
  
  情報処理学会研究報告 2013-HPC-139
  
  Volume: 10 Pages: 1-7
[Journal Article] スーパーコンピューティング・コンテスト20132013
- Author(s)
  渡辺治，遠藤敏夫
- Journal Title
  
  日本評論社数学セミナー第53巻1号
  
  Volume: 53 Pages: pp50-55
[Presentation] Exploration of Application-level Lossy Compression for Fast Checkpoint/Restart (poster)2014
- Author(s)
  Naoto Sasaki, Kento Sato, Toshio Endo and Satoshi Matsuoka
- Organizer
  International Supercomputing Conference 2014 (ISC14) HPC in Asia
- Place of Presentation
  Congress Center Leipzig, Leipzig, Germany
- Year and Date
  20140626-20140626
[Presentation] I/O acceleration with GPU for I/O-bound Applications (poster)2014
- Author(s)
  Kento Sato, Akira Nukada, Naoya Maruyama and Satoshi Matsuoka
- Organizer
  GPU Technology Conference 2014
- Place of Presentation
  San Jose McEnery Convention Center, San Jose, CA USA
- Year and Date
  20140324-20140327
- Invited
[Presentation] Fault Tolerance/Resilience at Petascale/Exascale: Is it Really Critical? Are Solutions Necessarily Disruptive?2013
- Author(s)
  Satoshi Matsuoka, Invited panelist
- Organizer
  Supercomputing 2013 (SC13)
- Place of Presentation
  Colorado Convention Center, Denver, Colorado USA
- Year and Date
  20131121-20131121
- Invited
[Presentation] TSUBAME2.5 evolution and onwards to 3.0 towards Exascale and Extreme Big Data Convergence2013
- Author(s)
  Satoshi Matsuoka, Invited speaker
- Organizer
  Supercomputing 2013 (SC13)
- Place of Presentation
  Colorado Convention Center, Denver, Colorado USA
- Year and Date
  20131120-20131120
- Invited
[Presentation] Checkpointing and Lustre2013
- Author(s)
  Kento Sato, Invited speaker
- Organizer
  APAC LUG 2013 Tokyo
- Place of Presentation
  東京ミッドタウン
- Year and Date
  20131017-20131017
- Invited
[Presentation] Resiliency in Exascale Systems - Rocket Science or Engineering?2013
- Author(s)
  Satoshi Matsuoka, Invited speaker
- Organizer
  International Supercomputing(ISC13)
- Place of Presentation
  Congress Center Leipzig, Leipzig, Germany
- Year and Date
  20130617-20130617
- Invited
[Presentation] Application-Level Checkpoint/Restart Framework with Optimal Checkpoint Interval2013
- Author(s)
  Hideyuki Jitsumoto, Yoshikazu Kamoshida
- Organizer
  HPC in Asia Session at ISC13
- Place of Presentation
  Congress Center Leipzig, Leipzig, Germany
- Year and Date
  20130617-20130617
[Book] "TSUBAME2.0: The First Petascale Supercomputer in Japan and the Greenest Production in the World", in Chapter 20, Contemporary High Performance Computing From Petascale toward Exascale, Edited by Jeffrey S . Vetter2013
- Author(s)
  Satoshi Matsuoka, Takayuki Aoki, Toshio Endo, Hitoshi Sato, Shin'ichiro Takizawa, Akihiko Nomura, Kento Sato
- Total Pages
  pp.525-556
- Publisher
  Chapman and Hall/CRC 2013

2013 Fiscal Year Annual Research Report

１０億並列・エクサスケールスーパーコンピュータの耐故障性基盤

Principal Investigator

松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)

Current Status of Research Progress

Reason

Research Products

[Journal Article] A User-level InfiniBand-based File System and Checkpoint Strategy for Burst Buffers2014

Author(s)

Journal Title

[Journal Article] FMI: Fault Tolerant Messaging Interface for Fast and Transparent Recovery2014

Author(s)

Journal Title

[Journal Article] Energy-aware I/O Optimization for Checkpoint and Restart on a NAND Flash Memory System2013

Author(s)

Journal Title

DOI

[Journal Article] エクサスケールスパコンに向けた耐故障性の評価― TSUBAME2.0を例にして ―2013

Author(s)

Journal Title

[Journal Article] Burst SSD Buffer: Checkpoint Strategy at Extreme Scale2013

Author(s)

Journal Title

[Journal Article] 適切なチェックポイント周期を与えるアプリケーションレベルチェックポイントライブラリ2013

Author(s)

Journal Title

[Journal Article] スーパーコンピューティング・コンテスト20132013

Author(s)

Journal Title

[Presentation] Exploration of Application-level Lossy Compression for Fast Checkpoint/Restart (poster)2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] I/O acceleration with GPU for I/O-bound Applications (poster)2014

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Fault Tolerance/Resilience at Petascale/Exascale: Is it Really Critical? Are Solutions Necessarily Disruptive?2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] TSUBAME2.5 evolution and onwards to 3.0 towards Exascale and Extreme Big Data Convergence2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Checkpointing and Lustre2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Resiliency in Exascale Systems - Rocket Science or Engineering?2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Application-Level Checkpoint/Restart Framework with Optimal Checkpoint Interval2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Book] "TSUBAME2.0: The First Petascale Supercomputer in Japan and the Greenest Production in the World", in Chapter 20, Contemporary High Performance Computing From Petascale toward Exascale, Edited by Jeffrey S . Vetter2013

Author(s)

Total Pages

Publisher

松岡聡東京工業大学, 学術国際情報センター, 教授 (20221583)