2016 年度実績報告書

マルチSPMDプログラム実行環境における耐障害アプリケーションの実現

研究課題

研究課題/領域番号	26730064
研究機関	国立研究開発法人理化学研究所
研究代表者	辻美和子国立研究開発法人理化学研究所, 計算科学研究機構, 研究員 (80466466)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	耐故障性 / プログラミングモデル / ワークフロー
研究実績の概要	本研究の目的は，アプリケーションプログラマの負担を最小限に抑えた耐故障性実現のために，マルチSPMDプログラミング開発実行環境において耐故障性をサポートすることである．この開発実行環境では，ワークフローにおけるタスクを分散並列／共有メモリモデルとすることで，ワークフローモデルと分散並列／共有メモリモデルを適切に組み合わせて利用し，大規模システムにおいても高いスケーラビリティを実現した．さらに，障害が起こったタスクをハードビートにより検出して自動的に再実行することで，障害発生下でもアプリケーションを完遂可能な仕組みを実装した．平成28年度においては，これまでに実装した耐故障性を考慮したマルチSPMDプログラミング開発実行環境を，大規模システムである京コンピュータに向けて拡張し，性能評価を行った．予備実験の結果，タスクへのデータ入出力時に故障検知のためのハートビートが適切に送られないことがあることがわかり，対策を検討した．本実装におけるタスクへのデータ入出力はMPI-IOにより行われている．京において，ワーカからMPI-IO時と計算時にそれぞれ一定間隔でハートビートをマスタへ送信する単純なマスタワーカ型プログラムを実行し，MPI-IO性能を評価したところ，MPI-IOとオーバーラップするハートビートはしばしば間隔が不規則になることがわかった．また，京におけるMPI-IOの実行時間を調査したところ，同一サイズのデータ，プロセス数を用いた複数の試行において，実行時間にばらつきが出ることがわかった．これらの理由により，ハートビートの受信間隔が長くなることが，マスタが動作中のワーカーを故障と誤判定する原因であることから，タスクへのデータ入出の前のハートビートに「出力中」の状態を示すフラグを追加し，この誤判定を防ぐ実装を行った．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 大規模システムにおける耐故障マルチ SPMD プログラミング開発実行環境の応用と評価2017
- 著者名/発表者名
  辻美和子
- 学会等名
  第158回ハイパフォーマンスコンピューティング研究発表会
- 発表場所
  大月ホテル和風館（静岡県・熱海市）
- 年月日
  2017-03-08 – 2017-03-10