研究課題/領域番号 |
26730064
|
研究機関 | 独立行政法人理化学研究所 |
研究代表者 |
辻 美和子 独立行政法人理化学研究所, 計算科学研究機構, 研究員 (80466466)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 耐故障性 / プログラミングモデル / 国際情報交換(アメリカ) / 国際情報交換(フランス) |
研究実績の概要 |
本研究の目的は,アプリケーションプログラマの負担を最小限に抑えた耐故障性実現のために,マルチSPMDプログラミング開発実行環境において耐故障性をサポートすることである.マルチSPMDプログラミング開発実行環境においては,巨大かつ階層的な将来の計算機システムを効率的に利用するために,ワークフローにおけるタスクを分散並列/共有メモリモデルにより開発することで,ワークフローモデルと分散並列/共有メモリモデルが組み合わせて利用する. 2014年度においては,マルチSPMDプログラミング開発実行環境におけるミドルウエアを拡張し,故障検知を実装した.拡張されたミドルウエアの性能を評価し,低オーバーヘッドでの故障検知が可能であることを確認した. 故障から回復するためのワークフロースケジューラのスケジューリング手法を検討し,拡張ミドルウエアを導入して,耐故障性マルチSPMDプログラミング開発環境プロトタイプを作成した.実験により,故障からの回復能力,故障検知オーバーヘッド,回復ためのオーバーヘッドなどを評価した.これにより,ワークフロースケジューラがミドルウエアを介して故障を検知し,故障から回復して正しい結果を出力することが確認された.また,ワークフローのタスク数やタスクに割り当てられる計算ノード数が適切であれば,実行中に故障が発生した場合でも,総実行時間の増加は数パーセント程度で済むことを確認した. 学会等での発表に加えて,産業総合研究所との共同ワークショップの実施,および国際ワークショップ「Workshop on language and programming paradigm for exascale applications」での発表を通じて,国内外の産学の研究者と意見交換を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究計画において示した故障検知手法(ミドルウエア)の実装を完了し,中規模な計算機クラスタを用いた計算機実験によって性能を評価した.ハートビート(あるプログラムが正常動作していることをマスタープログラムに示す通信)による故障検知能力およびオーバーヘッドを測定した. また,ミドルウエアをSPMDプログラミング開発実行環境に組み込み,スケジューラを改良を行った.これらにより,自動的な故障検知~回復を可能にした.同様に中規模クラスタによる計算機実験によって性能を評価した. 実験対象となるアプリケーションの種類や実験環境である計算機の規模が限定されたものの,申請書に記載した計画をほぼ達成したため,おおむね順調に進展していると考える.
|
今後の研究の推進方策 |
本年度においては,2014年度に構築した耐故障マルチSPMDプログラミング開発実行環境のプロトタイプを大規模な計算機環境で検証し,より効率的かつ安定的な環境構築を目指す. また,複数のアプリケーションにおいて計算機実験を行い,構築した耐故障マルチSPMDプログラミング開発実行環境の妥当性を示す. さらに,実行環境にあわせたマルチSPMDプログラミング開発実行環境の使用方法を検証する.故障発生の可能性の下においては,ワークフローにおけるタスクの総数,規模および同寺実行可能数などの計算資源配分に関るパラメータは,システムによって異なると考えられることから,適切な資源配分方法について検討する.
|
次年度使用額が生じた理由 |
計算機使用料を計上したが,所属機関のクラスタなどで必要な実験がカバーできたため.
|
次年度使用額の使用計画 |
成果発表(国内会議2回程度,国際会議1~2回程度)および雑誌掲載料,国際会議や国際雑誌投稿時の英文校閲などに使用する計画である.
|