本研究は、ポストペタスケール計算環境でアプリケーションの実効性能を維持しつつプログラムの継続実行を支援する高可用分散協調スケジューラを実証することを目的としている。ポストペタスケール環境では、階層型タスク並列が計算効率を高めるための有望なプログラミングモデルの1つと考えられているが、アプリケーションプログラムには障害が発生しても継続実行できる耐障害性が求められ、そのプログラミングコストが大きくなってしまう。よって、階層型タスク並列アプリケーションプログラムの耐障害性を支援する高可用分散協調スケジューラのプロトタイプシステムを設計・開発し、ポストペタスケール計算機環境における性能特性を調査する。 H26年度は、Javaで実装したプロトタイプシステムに加え、User Level Fault Mitigation (ULFM) MPIをもちいてCで実装しているFalanxミドルウェアに提案する高可用分散協調スケジューラを実装した。評価実験から、資源管理情報を適切に管理することにより、分散協調スケジューラのオーバヘッドを低減できることを確認した。また、実アプリケーションであるOpenFMOを用いた評価では、分散強調スケジューラの有無による顕著な性能差は確認されず、大規模環境での実現可能性を示した。 本研究の成果は、ACM HPDC'14およびIEEE/ACM SC14のポスターセッション、および査読付き国際会議ACM IMCOM 2015において発表した。
|