2006 Fiscal Year Annual Research Report
故障率の変動を考慮した空間冗長度の時間畳み込みによるクラスタシステムの高信頼化
Project/Area Number |
18650010
|
Research Institution | The University of Tokyo |
Principal Investigator |
中村 宏 東京大学, 先端科学技術研究センター, 助教授 (20212102)
|
Co-Investigator(Kenkyū-buntansha) |
南谷 崇 東京大学, 先端科学技術研究センター, 教授 (80143684)
近藤 正章 東京大学, 先端科学技術研究センター, 産学官連携研究員・特任教員(特任助教授) (30376660)
|
Keywords | ディペンダブルコンピューティング / クラスタシステム / モデル化 / 多重故障 / 計算システム |
Research Abstract |
今年度は、故障率が空間的にのみ変動する場合、すなわち故障率はノード毎に異なるが時間的には変動しない場合の検討を行った。高信頼化手法としては、全ノードが同時にチェックポインティングを行うcooridinated checkpointingを採用し、チェックポイントデータを自ノードと他の1ノードに保存する、1mirroringを考えた(1MIRと以降省略する)。このとき、あるノードから、そのノードのチェックポイントデータを持つノードへのベクトルを、空間冗長ベクトルとして定義すると、1MIRでは単純故障には耐性を持つが、同時2重故障発生時には、その故障が発生する2ノードが空間冗長ベクトルで被覆されていると、システムとしての耐故障性を有さず、障害となる。したがって、このベクトルの与え方が信頼性に大きく影響を与えるが、故障率はノード毎に異なるという仮定において信頼性を最も高くできる空間冗長ベクトルの与え方を明らかにした。次に、与えられた空間冗長ベクトルでの1MIR方式をマルコフ過程として定式化し、そのperformabilityを理論的に解析する手法を検討した。この検討では、1回の状態保存に要する時間と状態保存の頻度が実効性能に与える影響と、障害発生時に状態復元と再スタートにより失う時間がperformabilityに影響を与えるので、その、評価のためにシミュレータを開発した。このシミュレータは、状態保存に要する時間、故障発生時の状態復元と再スタートに要する時間をパラメータとして与えることができ、また故障率を空間と時間の関数として与えられるようにした。初期評価として、千台規模のクラスタシステムでは提案する空間冗長ベクトルの与え方により、perfbmabilityを10%程向上できることもわかった。
|
Research Products
(1 results)