• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

10億並列・エクサスケールスーパーコンピュータの耐故障性基盤

Research Project

Project/Area Number 23220003
Research InstitutionTokyo Institute of Technology

Principal Investigator

松岡 聡  東京工業大学, 学術国際情報センター, 教授 (20221583)

Co-Investigator(Kenkyū-buntansha) 實本 英之  東京大学, 情報基盤センター, 助教 (00545311)
Project Period (FY) 2011-05-31 – 2016-03-31
Keywordsハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障技術 / データ圧縮 / チェックポイント・リスタート / バースト・バッファー
Research Abstract

本年度は、耐障害システム全体のオーバーヘッドを削減するため、(1) チェックポイントデータの圧縮と(2)バースト・バッファーを用いたチェックポイント戦略 (coordinated/ uncoordinated)についての研究を行った。
具体的に、(1) チェックポイントデータの圧縮では、科学技術アプリケーションでよく見られるチェックポイントデータの特徴を活かして、JPEG-2000で使用されているウェーブレット変換の多重解像度解析・量子化・符号化を利用することで、データサイズをおよそ1/10まで削減することができた。
また、(2) バースト・バッファーを用いたチェックポイント戦略については、米国ローレンス・リバモア国立研究所のBronis R de. Supinski氏と共同で、将来の高信頼スパコンの実現に向けて、バースト・バッファーを備えた、階層型ストレージの信頼性やCoordinated、Uncoordinatedチェックポイントなどの既存手法の適用性をTSUBAME及びLLNLの複数のスパコンを対象とした検証実験を行った。これは、前年度で提案した階層型チェックポイントの複合的数理モデルをベースとしており、これと制限付き自由文脈文法を用いたストレージ・モデルと組み合わせることで、より多くのアーキテクチャに対応可能なモデルへと拡張した。このモデルを用いた検証では、バースト・バッファーとUncoordinatedチェックポイントを併用することにより(Uncoordinated Burst Buffer)、従来型のストレージ・アーキテクチャ及びチェックポイント手法 (Coordinated Flat Buffer) に比べ、数十倍の効率化が実現できることを定量的に立証した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

我々は、9.研究実績で述べた通り、平成25年度までの研究目標を達成し、かつ国内・国際会議に於いて、既に研究成果を発表している。また、幾つかの研究は当初の計画の一部を前倒しで行っている。
具体的に、我々は次期TSUBAME3.0へのシステム統合のために、あらゆる側面から耐故障基盤の実現に向けて研究を行っている。中でもスパコンのように、高度に階層化されたネットワークでは、リンク故障に対する、自律的耐故障が重要であるが、ルーティング・テーブル更新では、デッドロックの問題などが内包している。そのため、平成24年度から、ルーティング・アルゴリズムに精通した、米国オークリッジ国立研究所のJens Domke氏を招聘し、自律的耐故障機構の実装及び実システムへの統合に向けた、アルゴリズムの開発にあたっている。これは、平成27年度の研究計画の自律的耐故障機構の実装のためのシステム統合の一部にあたる。
また、平成23年度に開発されたFTIは、既にLGPLライセンスでオープンソースのソフトウェアとして公開し、国際会議SC13のEmerging Technologies Boothにおいて、流布活動を行った。特に、スパコン分野において最大規模の国際学会であるSC13での流布活動は、世界的インパクトは大きいと期待される。これは、平成27年度 研究計画のオープンソースとして公開・流布活動にあたる。
以上のように、平成25年度までの研究計画は達成されており、また、幾つかの研究課題に対し、当初の計画の一部を前倒しで行っており、”当初の計画以上に進展している。”と、言える。

Strategy for Future Research Activity

我々は、10億並列・エクサスケールスーパーコンピュータの耐故障生基盤の確立のため、平成26年度は、当初の研究計画通りに、「エクサスケールシステムに対応し得る障害復旧機構の考案」を行う。
これまで開発してきたアルゴリズム及び、システムの改良を進めるとともに、様々な障害に対応した障害復旧手法を考案することが必要となっている。それには、ハードウェアだけでなくソフトウェアの状態を監視し記録するシステムが不可欠であるが、数十億並列にスケールさせることは困難である。更にTSUBAME2.0は設計時から既に通常のスーパーコンピュータより遥かに多い、数十にものぼる温度・電力・ファン・電源などの各種センサーが装備されており、OSの実行状態報告を含めて多くのモニタリング情報のデータストリームが発生する。これらを正にGPUが得意とするストリーム処理に適合させ、莫大なデータを統計的に処理することによって障害を検出・予測する。
また、自律的に障害復旧を行う為に、様々なシナリオを想定した障害復旧手法をシステムプログラマがあらかじめ提供し、システムがシナリオ学習を経て動的に選択するようにする。これは、超細粒度並列かつヘテロジニアスな計算環境に適した障害復旧手法が選択される場合、システムの不均質性(CPUとGPUなど)やペタバイト級の実行データの分散チェックポイントや、あるいは他手法との競合から、単一のポリシーでは最適な復旧を行うのが不可能であるからである。これらの回復手法のエクサまでのスケーラビリティ、及び先年度確立してきた様々な機構との親和性の検証が主な研究内容となる。

  • Research Products

    (15 results)

All 2014 2013

All Journal Article (7 results) (of which Peer Reviewed: 3 results) Presentation (7 results) (of which Invited: 5 results) Book (1 results)

  • [Journal Article] A User-level InfiniBand-based File System and Checkpoint Strategy for Burst Buffers2014

    • Author(s)
      Kento Sato, Kathryn Mohror, Adam Moody, Todd Gamblin, Bronis R de. Supinski, Naoya Maruyama and Satoshi Matsuoka
    • Journal Title

      In Proceedings of 2014 14th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing (CCGrid)

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] FMI: Fault Tolerant Messaging Interface for Fast and Transparent Recovery2014

    • Author(s)
      Kento Sato, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski, Naoya Maruyama and Satoshi Matsuoka
    • Journal Title

      In Proceedings of the International Conference on Parallel and Distributed Processing Symposium 2014 (IPDPS2014)

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] Energy-aware I/O Optimization for Checkpoint and Restart on a NAND Flash Memory System2013

    • Author(s)
      Takafumi Saito, Kento Sato, Hitoshi Sato and Satoshi Matsuoka
    • Journal Title

      In Proceedings of Fault-Tolerance for HPC at Extreme Scale 2013 (FTXS2013) in conjunction with the International Symposium on High Performance Parallel and Distributed Computing (HPDC13)

      Volume: - Pages: pp41-48

    • DOI

      10.1145/2465813.2465822.

    • Peer Reviewed
  • [Journal Article] エクサスケールスパコンに向けた耐故障性の評価― TSUBAME2.0を例にして ―2013

    • Author(s)
      松岡聡、佐藤賢斗、遠藤 敏夫
    • Journal Title

      情報処理学会研究報告 HPC-141

      Volume: 22 Pages: 1-8

  • [Journal Article] Burst SSD Buffer: Checkpoint Strategy at Extreme Scale2013

    • Author(s)
      Kento Sato, Satoshi Matsuoka, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski and Naoya Maruyama
    • Journal Title

      IPSJ SIG Technical Reports 2013-HPC-141

      Volume: 19 Pages: 1-9

  • [Journal Article] 適切なチェックポイント周期を与えるアプリケーションレベルチェックポイントライブラリ2013

    • Author(s)
      實本 英之, 鴨志田良和
    • Journal Title

      情報処理学会 研究報告 2013-HPC-139

      Volume: 10 Pages: 1-7

  • [Journal Article] スーパーコンピューティング・コンテスト20132013

    • Author(s)
      渡辺治,遠藤敏夫
    • Journal Title

      日本評論社 数学セミナー 第53巻1号

      Volume: 53 Pages: pp50-55

  • [Presentation] Exploration of Application-level Lossy Compression for Fast Checkpoint/Restart (poster)2014

    • Author(s)
      Naoto Sasaki, Kento Sato, Toshio Endo and Satoshi Matsuoka
    • Organizer
      International Supercomputing Conference 2014 (ISC14) HPC in Asia
    • Place of Presentation
      Congress Center Leipzig, Leipzig, Germany
    • Year and Date
      20140626-20140626
  • [Presentation] I/O acceleration with GPU for I/O-bound Applications (poster)2014

    • Author(s)
      Kento Sato, Akira Nukada, Naoya Maruyama and Satoshi Matsuoka
    • Organizer
      GPU Technology Conference 2014
    • Place of Presentation
      San Jose McEnery Convention Center, San Jose, CA USA
    • Year and Date
      20140324-20140327
    • Invited
  • [Presentation] Fault Tolerance/Resilience at Petascale/Exascale: Is it Really Critical? Are Solutions Necessarily Disruptive?2013

    • Author(s)
      Satoshi Matsuoka, Invited panelist
    • Organizer
      Supercomputing 2013 (SC13)
    • Place of Presentation
      Colorado Convention Center, Denver, Colorado USA
    • Year and Date
      20131121-20131121
    • Invited
  • [Presentation] TSUBAME2.5 evolution and onwards to 3.0 towards Exascale and Extreme Big Data Convergence2013

    • Author(s)
      Satoshi Matsuoka, Invited speaker
    • Organizer
      Supercomputing 2013 (SC13)
    • Place of Presentation
      Colorado Convention Center, Denver, Colorado USA
    • Year and Date
      20131120-20131120
    • Invited
  • [Presentation] Checkpointing and Lustre2013

    • Author(s)
      Kento Sato, Invited speaker
    • Organizer
      APAC LUG 2013 Tokyo
    • Place of Presentation
      東京ミッドタウン
    • Year and Date
      20131017-20131017
    • Invited
  • [Presentation] Resiliency in Exascale Systems - Rocket Science or Engineering?2013

    • Author(s)
      Satoshi Matsuoka, Invited speaker
    • Organizer
      International Supercomputing(ISC13)
    • Place of Presentation
      Congress Center Leipzig, Leipzig, Germany
    • Year and Date
      20130617-20130617
    • Invited
  • [Presentation] Application-Level Checkpoint/Restart Framework with Optimal Checkpoint Interval2013

    • Author(s)
      Hideyuki Jitsumoto, Yoshikazu Kamoshida
    • Organizer
      HPC in Asia Session at ISC13
    • Place of Presentation
      Congress Center Leipzig, Leipzig, Germany
    • Year and Date
      20130617-20130617
  • [Book] "TSUBAME2.0: The First Petascale Supercomputer in Japan and the Greenest Production in the World", in Chapter 20, Contemporary High Performance Computing From Petascale toward Exascale, Edited by Jeffrey S . Vetter2013

    • Author(s)
      Satoshi Matsuoka, Takayuki Aoki, Toshio Endo, Hitoshi Sato, Shin'ichiro Takizawa, Akihiko Nomura, Kento Sato
    • Total Pages
      pp.525-556
    • Publisher
      Chapman and Hall/CRC 2013

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi