• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2014 Fiscal Year Research-status Report

マルチSPMDプログラム実行環境における耐障害アプリケーションの実現

Research Project

Project/Area Number 26730064
Research InstitutionThe Institute of Physical and Chemical Research

Principal Investigator

辻 美和子  独立行政法人理化学研究所, 計算科学研究機構, 研究員 (80466466)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords耐故障性 / プログラミングモデル / 国際情報交換(アメリカ) / 国際情報交換(フランス)
Outline of Annual Research Achievements

本研究の目的は,アプリケーションプログラマの負担を最小限に抑えた耐故障性実現のために,マルチSPMDプログラミング開発実行環境において耐故障性をサポートすることである.マルチSPMDプログラミング開発実行環境においては,巨大かつ階層的な将来の計算機システムを効率的に利用するために,ワークフローにおけるタスクを分散並列/共有メモリモデルにより開発することで,ワークフローモデルと分散並列/共有メモリモデルが組み合わせて利用する.
2014年度においては,マルチSPMDプログラミング開発実行環境におけるミドルウエアを拡張し,故障検知を実装した.拡張されたミドルウエアの性能を評価し,低オーバーヘッドでの故障検知が可能であることを確認した.
故障から回復するためのワークフロースケジューラのスケジューリング手法を検討し,拡張ミドルウエアを導入して,耐故障性マルチSPMDプログラミング開発環境プロトタイプを作成した.実験により,故障からの回復能力,故障検知オーバーヘッド,回復ためのオーバーヘッドなどを評価した.これにより,ワークフロースケジューラがミドルウエアを介して故障を検知し,故障から回復して正しい結果を出力することが確認された.また,ワークフローのタスク数やタスクに割り当てられる計算ノード数が適切であれば,実行中に故障が発生した場合でも,総実行時間の増加は数パーセント程度で済むことを確認した.
学会等での発表に加えて,産業総合研究所との共同ワークショップの実施,および国際ワークショップ「Workshop on language and programming paradigm for exascale applications」での発表を通じて,国内外の産学の研究者と意見交換を行った.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究計画において示した故障検知手法(ミドルウエア)の実装を完了し,中規模な計算機クラスタを用いた計算機実験によって性能を評価した.ハートビート(あるプログラムが正常動作していることをマスタープログラムに示す通信)による故障検知能力およびオーバーヘッドを測定した.
また,ミドルウエアをSPMDプログラミング開発実行環境に組み込み,スケジューラを改良を行った.これらにより,自動的な故障検知~回復を可能にした.同様に中規模クラスタによる計算機実験によって性能を評価した.
実験対象となるアプリケーションの種類や実験環境である計算機の規模が限定されたものの,申請書に記載した計画をほぼ達成したため,おおむね順調に進展していると考える.

Strategy for Future Research Activity

本年度においては,2014年度に構築した耐故障マルチSPMDプログラミング開発実行環境のプロトタイプを大規模な計算機環境で検証し,より効率的かつ安定的な環境構築を目指す.
また,複数のアプリケーションにおいて計算機実験を行い,構築した耐故障マルチSPMDプログラミング開発実行環境の妥当性を示す.
さらに,実行環境にあわせたマルチSPMDプログラミング開発実行環境の使用方法を検証する.故障発生の可能性の下においては,ワークフローにおけるタスクの総数,規模および同寺実行可能数などの計算資源配分に関るパラメータは,システムによって異なると考えられることから,適切な資源配分方法について検討する.

Causes of Carryover

計算機使用料を計上したが,所属機関のクラスタなどで必要な実験がカバーできたため.

Expenditure Plan for Carryover Budget

成果発表(国内会議2回程度,国際会議1~2回程度)および雑誌掲載料,国際会議や国際雑誌投稿時の英文校閲などに使用する計画である.

  • Research Products

    (4 results)

All 2015 2014

All Presentation (4 results)

  • [Presentation] Fault Tolerance features of YML-XMP2015

    • Author(s)
      Miwako Tsuji
    • Organizer
      Workshop on Langage and Programming Paradigm for Exascale Applications
    • Place of Presentation
      Houston, TX, USA
    • Year and Date
      2015-03-12 – 2015-03-13
  • [Presentation] マルチSPMDプログラミング開発実行環境における耐故障性実現に向けたワークフロースケジューリングの検討2015

    • Author(s)
      辻美和子,佐藤三久
    • Organizer
      情報処理学会研究報告
    • Place of Presentation
      大分県別府市
    • Year and Date
      2015-03-02 – 2015-03-03
  • [Presentation] マルチSPMD環境に向けたXMP/YMLの活用2014

    • Author(s)
      辻美和子
    • Organizer
      第2回XcalableMPワークショップ
    • Place of Presentation
      東京都千代田区
    • Year and Date
      2014-10-24 – 2014-10-24
  • [Presentation] マルチSPMD環境における耐故障性実現に向けた OmniRPC-MPI の拡張2014

    • Author(s)
      辻美和子,佐藤三久
    • Organizer
      情報処理学会研究報告
    • Place of Presentation
      沖縄県沖縄市
    • Year and Date
      2014-10-02 – 2014-10-02

URL: 

Published: 2016-06-01  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi