本研究においては,アプリケーションプログラマの負担を最小限に抑えた耐故障性実現のために,マルチSPMDプログラミング開発実行環境において耐故障性をサポートした.この開発実行環境では,ワークフローにおけるタスクを分散並列/共有メモリモデルとすることで,ワークフローモデルと分散並列/共有メモリモデルを適切に組み合わせて利用し,大規模システムにおいても高いスケーラビリティを実現した.さらに,障害が起こったタスクをハードビートにより検出して自動的に再実行することで,障害発生下でもアプリケーションを完遂可能な仕組みを実装した.
|