• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実施状況報告書

マルチSPMDプログラム実行環境における耐障害アプリケーションの実現

研究課題

研究課題/領域番号 26730064
研究機関独立行政法人理化学研究所

研究代表者

辻 美和子  独立行政法人理化学研究所, 計算科学研究機構, 研究員 (80466466)

研究期間 (年度) 2014-04-01 – 2017-03-31
キーワード耐故障性 / プログラミングモデル / 国際情報交換(アメリカ) / 国際情報交換(フランス)
研究実績の概要

本研究の目的は,アプリケーションプログラマの負担を最小限に抑えた耐故障性実現のために,マルチSPMDプログラミング開発実行環境において耐故障性をサポートすることである.マルチSPMDプログラミング開発実行環境においては,巨大かつ階層的な将来の計算機システムを効率的に利用するために,ワークフローにおけるタスクを分散並列/共有メモリモデルにより開発することで,ワークフローモデルと分散並列/共有メモリモデルが組み合わせて利用する.
2014年度においては,マルチSPMDプログラミング開発実行環境におけるミドルウエアを拡張し,故障検知を実装した.拡張されたミドルウエアの性能を評価し,低オーバーヘッドでの故障検知が可能であることを確認した.
故障から回復するためのワークフロースケジューラのスケジューリング手法を検討し,拡張ミドルウエアを導入して,耐故障性マルチSPMDプログラミング開発環境プロトタイプを作成した.実験により,故障からの回復能力,故障検知オーバーヘッド,回復ためのオーバーヘッドなどを評価した.これにより,ワークフロースケジューラがミドルウエアを介して故障を検知し,故障から回復して正しい結果を出力することが確認された.また,ワークフローのタスク数やタスクに割り当てられる計算ノード数が適切であれば,実行中に故障が発生した場合でも,総実行時間の増加は数パーセント程度で済むことを確認した.
学会等での発表に加えて,産業総合研究所との共同ワークショップの実施,および国際ワークショップ「Workshop on language and programming paradigm for exascale applications」での発表を通じて,国内外の産学の研究者と意見交換を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

研究計画において示した故障検知手法(ミドルウエア)の実装を完了し,中規模な計算機クラスタを用いた計算機実験によって性能を評価した.ハートビート(あるプログラムが正常動作していることをマスタープログラムに示す通信)による故障検知能力およびオーバーヘッドを測定した.
また,ミドルウエアをSPMDプログラミング開発実行環境に組み込み,スケジューラを改良を行った.これらにより,自動的な故障検知~回復を可能にした.同様に中規模クラスタによる計算機実験によって性能を評価した.
実験対象となるアプリケーションの種類や実験環境である計算機の規模が限定されたものの,申請書に記載した計画をほぼ達成したため,おおむね順調に進展していると考える.

今後の研究の推進方策

本年度においては,2014年度に構築した耐故障マルチSPMDプログラミング開発実行環境のプロトタイプを大規模な計算機環境で検証し,より効率的かつ安定的な環境構築を目指す.
また,複数のアプリケーションにおいて計算機実験を行い,構築した耐故障マルチSPMDプログラミング開発実行環境の妥当性を示す.
さらに,実行環境にあわせたマルチSPMDプログラミング開発実行環境の使用方法を検証する.故障発生の可能性の下においては,ワークフローにおけるタスクの総数,規模および同寺実行可能数などの計算資源配分に関るパラメータは,システムによって異なると考えられることから,適切な資源配分方法について検討する.

次年度使用額が生じた理由

計算機使用料を計上したが,所属機関のクラスタなどで必要な実験がカバーできたため.

次年度使用額の使用計画

成果発表(国内会議2回程度,国際会議1~2回程度)および雑誌掲載料,国際会議や国際雑誌投稿時の英文校閲などに使用する計画である.

  • 研究成果

    (4件)

すべて 2015 2014

すべて 学会発表 (4件)

  • [学会発表] Fault Tolerance features of YML-XMP2015

    • 著者名/発表者名
      Miwako Tsuji
    • 学会等名
      Workshop on Langage and Programming Paradigm for Exascale Applications
    • 発表場所
      Houston, TX, USA
    • 年月日
      2015-03-12 – 2015-03-13
  • [学会発表] マルチSPMDプログラミング開発実行環境における耐故障性実現に向けたワークフロースケジューリングの検討2015

    • 著者名/発表者名
      辻美和子,佐藤三久
    • 学会等名
      情報処理学会研究報告
    • 発表場所
      大分県別府市
    • 年月日
      2015-03-02 – 2015-03-03
  • [学会発表] マルチSPMD環境に向けたXMP/YMLの活用2014

    • 著者名/発表者名
      辻美和子
    • 学会等名
      第2回XcalableMPワークショップ
    • 発表場所
      東京都千代田区
    • 年月日
      2014-10-24 – 2014-10-24
  • [学会発表] マルチSPMD環境における耐故障性実現に向けた OmniRPC-MPI の拡張2014

    • 著者名/発表者名
      辻美和子,佐藤三久
    • 学会等名
      情報処理学会研究報告
    • 発表場所
      沖縄県沖縄市
    • 年月日
      2014-10-02 – 2014-10-02

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi