• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

広域環境における大規模データ処理の最適化

Research Project

Project/Area Number 12J08253
Research InstitutionTokyo Institute of Technology

Principal Investigator

佐藤 賢斗  東京工業大学, 大学院・情報理工学研究科, 特別研究員(DC2)

Keywordsスーパーコンピュータ / チェックポイント・リスタート / プロセス・マイグレーション / Infiniband
Research Abstract

プロセス・マイグレーションのためのチェックポイントとデータの転送の高速化を行った。多数プロセスのマイグレーションでは、計算リソースに多大な負荷を与えると予測される。一昨年(2011年)のローレンスリバモア国立研究所で3ヶ月の滞在、研究活動を通じて、チェックポイントによるネットワーク及びストレージへの負荷は無視できず、事実、東京工業大学学術国際情報センターのスーパーコンピュータTSUBAME2.0でも同様の問題を抱えている。このため、より軽量な(Light weight)チェックポイントを行うシステムとチェックポイントの頻度を精緻に決定するための数理モデルが必要である。そこで、本年度では、世界的に多くのスーパーコンピュータに搭載されている
InfinibandのRDMA(Remote Direct Memory Access)機能を利用し、非同期的にチェックポイントを行うシステムを開発した。これをローレンスリバモア国立研究所で開発されているSCR(Scalable Checkpoint/Restart)ライブラリと組み合わせることにより非同期かつ階層型チェックポイント(複数のストレージを使い分ける)を実現し、チェックポイントによるアプリケーションへのオーバーヘッドを削減しつつ、並列ファイルシステムへの負荷を軽減した。また、この非同期かつ階層型チェックポイントの最適な頻度を決定するため、マルコフモデルを用いた数理・確率モデルを用いた最適化手法を提案した。評価の結果、このシステムを次世代スーパーコンピュータに適用することにより、チェックポイント及びリスタートによるオーバーヘッドを1.1~1.8倍の削減できることを示した。ここで得られた成果は、国内外の会議で発表を行った。特に、採択率21%と大変選別の厳しい国際会議SC12において論文が採択され、本研究は、国際的に期待度が高くなりつつある。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

既に平成25年度の研究目的である(1)"プロセス・マイグレーション機構の性能モデルを構築"を、"マルコフモデルを用いた数理・確率モデル"として、(2)"階層型ストレージの有効利用と実環境への適用"を、"階層型チェックポイントの次世代スーパーコンピュータへの適用"として一部実現している。また、ここまでの成果は既に論文としてまとめ、国際会議に採択された。これらの事実から、現在までの達成度は"当初の計画以上に進展している"と考える。

Strategy for Future Research Activity

平成25年度の研究目的である、書き込み処理も考慮した、データ・マイグレーションとプロセス・マイグレーションを併用したハイブリット型マイグレーションアルゴリズムのうち、特に、プロセス・マイグレーション技術に重点を置く。それは、今後2018年ごろに登場が目されているエクサ・スケール・スーパーコンピュータ(一秒間に1018回の浮動小数点演算を行うマシン)の耐障害技術への応用が可能であるとわかったためである。エクサ・スケール・スーパーコンピュータでは、物理的なシステムのサイズやその複雑性により、システムの障害率が急激に増加すると予想されており、耐障害技術の1つとしてプロセス・マイグレーションが注目を集めている。そのため、最終年度では、主にプロセス・マイグレーションを活用することにより、本研究の最終目的である、"連携型次世代スパコンにおける大規模データ処理及びシミュレーションの高速化"を行う。

  • Research Products

    (5 results)

All 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results) Presentation (1 results) Remarks (1 results)

  • [Journal Article] Design and Modeling of a Non-Blocking Checkpoint System2012

    • Author(s)
      Kento Sato, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski, Naoya Maruyama, Satoshi Matsuoka
    • Journal Title

      In Proceedings of the International Conference on HighPerformance Computing, Networking, Storage and Analysis (SC'12)

      Pages: 19:1-19:10

    • Peer Reviewed
  • [Journal Article] Scalable Multi-GPU 3-D FFT for TSUBAME 2.0 Supercomputer2012

    • Author(s)
      Akira Nukada, Kento Sato, Satoshi Matsuoka
    • Journal Title

      In Proceedings of the International Conference on HighPerformance Computing, Networking, Storage and Analysis (SC'12)

      Pages: 44:1-44:10

    • Peer Reviewed
  • [Journal Article] Design and Modeling of an Asynchronous Checkpointing System2012

    • Author(s)
      Kento Sato, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R. de Supinski, Naoya Maruyama and Satoshi Matsuoka
    • Journal Title

      IPSJ SIG Technical Reports 2012-HPC-135

      Volume: 2012-HPC-135 Pages: 1-8

  • [Presentation] Towards a Light-weight Non-blocking Checkpointing System2012

    • Author(s)
      Kento Sato,、Adam Moody, Kathryn Mohror, Tbdd Gamblin, Bronis R. de Supinski, Naoya Maruyama, Satoshi Matsuoka
    • Organizer
      In HPC in Asia Workshop in conjunction with the 2012 International Supercomputing Conference (ISC'12) (Poster)
    • Place of Presentation
      Congress Center Hamburg, Hamburg, Germany
    • Year and Date
      2012-06-17
  • [Remarks]

    • URL

      http://matsu-www.is.titech.ac.jp/~kent/

URL: 

Published: 2014-07-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi