研究課題/領域番号 |
16650008
|
研究機関 | 東京大学 |
研究代表者 |
中村 宏 東京大学, 先端科学技術研究センター, 助教授 (20212102)
|
研究分担者 |
南谷 崇 東京大学, 先端科学技術研究センター, 教授 (80143684)
|
キーワード | クラスタシステム / 高信頼化 / チェックポインティング / 故障率変動 / 空間的冗長度 / 時間的冗長度 / マルコフモデル |
研究概要 |
本研究の目的は、汎用の高性能な計算ノードを多数高速ネットワークで接続するクラスタシステムの高信頼化であり、クラスタシステムの状態を最低限の空間冗長度で保持し、それを時間軸上で畳み込むことでさらに高い冗長度を確保する新しい手法として、skewed checkpointingという新しいチェックポイント方式を提案した。本年度はまず、前年度開発したチェックポイント方式のシミュレータを開発した。これにより、CPU/network/disk等の実システムの性能、および故障率に応じて、アルゴリズムの最適化を実施した場合の効果を検証することが可能となる。その後、提案するチェックポイント方式を実際のクラスタ上にプロトタイプ実装し、状態保存に要する時間、状態復元に要する時間を測定した。提案手法の有効性は、シミュレーションを用いて示すべきだが、そもそも故障は確率的に発生するものなので、結果の精度を上げるためには膨大なシミュレーションをする必要がある。特に、多重故障などの発生確率の低い障害に対する効果を示すことはシミュレーションでは難しい。そこで、マルコフモデルを用いて、性能と信頼性の両方を含むperformabilityの理論解析も実施した。シミュレーション評価から、CPU/network/disk等の実システムの性能、および故障率に応じて最適化する提案チェックポイント方式の有効性が明らかになり、また、この結果が理論解析結果とほぼ一致したことからその検証も行えた。この結果を踏まえ、実行中に故障率が変動する場合に動的にチェックポイント方式を最適化する手法に関しても提案し、シミュレーション評価により、その有効性を示すことができた。故障率が変動する場合の理論解析はまだ不十分であるが、実行中に故障率が変動するという、実環境に即した仮定を考慮することができたのは意義深い成果である。
|