空間冗長度の時間畳み込みによるクラスタシステムの高信頼化

Research Project

Project/Area Number	16650008
Research Category	Grant-in-Aid for Exploratory Research
Allocation Type	Single-year Grants
Research Field	Computer system/Network
Research Institution	The University of Tokyo
Principal Investigator	中村宏東京大学, 先端科学技術研究センター, 助教授 (20212102)
Co-Investigator(Kenkyū-buntansha)	南谷崇東京大学, 先端科学技術研究センター, 教授 (80143684)
Project Period (FY)	2004 – 2005
Project Status	Completed (Fiscal Year 2005)
Budget Amount *help	¥3,500,000 (Direct Cost: ¥3,500,000) Fiscal Year 2005: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2004: ¥2,700,000 (Direct Cost: ¥2,700,000)
Keywords	クラスタシステム / 高信頼化 / チェックポインティング / 故障率変動 / 空間的冗長度 / 時間的冗長度 / マルコフモデル
Research Abstract	本研究の目的は、汎用の高性能な計算ノードを多数高速ネットワークで接続するクラスタシステムの高信頼化であり、クラスタシステムの状態を最低限の空間冗長度で保持し、それを時間軸上で畳み込むことでさらに高い冗長度を確保する新しい手法として、skewed checkpointingという新しいチェックポイント方式を提案した。本年度はまず、前年度開発したチェックポイント方式のシミュレータを開発した。これにより、CPU/network/disk等の実システムの性能、および故障率に応じて、アルゴリズムの最適化を実施した場合の効果を検証することが可能となる。その後、提案するチェックポイント方式を実際のクラスタ上にプロトタイプ実装し、状態保存に要する時間、状態復元に要する時間を測定した。提案手法の有効性は、シミュレーションを用いて示すべきだが、そもそも故障は確率的に発生するものなので、結果の精度を上げるためには膨大なシミュレーションをする必要がある。特に、多重故障などの発生確率の低い障害に対する効果を示すことはシミュレーションでは難しい。そこで、マルコフモデルを用いて、性能と信頼性の両方を含むperformabilityの理論解析も実施した。シミュレーション評価から、CPU/network/disk等の実システムの性能、および故障率に応じて最適化する提案チェックポイント方式の有効性が明らかになり、また、この結果が理論解析結果とほぼ一致したことからその検証も行えた。この結果を踏まえ、実行中に故障率が変動する場合に動的にチェックポイント方式を最適化する手法に関しても提案し、シミュレーション評価により、その有効性を示すことができた。故障率が変動する場合の理論解析はまだ不十分であるが、実行中に故障率が変動するという、実環境に即した仮定を考慮することができたのは意義深い成果である。

Report

(2 results)

2005 Annual Research Report
2004 Annual Research Report

Research Products
(4 results)

All 2005 2004

All Journal Article (4 results)

[Journal Article] 空間的・時間的な故障率の変動を考慮したチェックポインティング手法の初期検討2005
- Author(s)
  東美和子, 近藤正章, 今井雅, 中村宏, 南谷崇
- Journal Title
  
  信学技報 DC2005-14
  
  Pages: 7-12
- NAID
  110003224491
- Related Report
  2005 Annual Research Report
[Journal Article] 多重故障に適応したSkewed Checkpointingの提案2004
- Author(s)
  田島裕也, 林田卓朗, 近藤正章, 今井雅, 中村宏, 南谷崇
- Journal Title
  
  先進的計算基盤システムシンポジウムSACSIC2004
  
  Pages: 153-154
- Related Report
  2004 Annual Research Report
[Journal Article] Skewed Checkpointing for Tolerating Multi-Node Failures2004
- Author(s)
  H.Nakamura, T.Hayashida, M.Kondo, Y.Tajima, M.Imai, T.Nanya
- Journal Title
  
  Proceedings of IEEE SRDS '04
  
  Pages: 116-125
- Related Report
  2004 Annual Research Report
[Journal Article] 多重故障を考慮した計算機クラスタ向けSkewed Checkpointingの検討2004
- Author(s)
  田島裕也, 林田卓朗, 近藤正章, 今井雅, 中村宏, 南谷崇
- Journal Title
  
  信学技報 DC2004-19(2004-07)
  
  Pages: 37-42
- NAID
  110003173715
- Related Report
  2004 Annual Research Report

空間冗長度の時間畳み込みによるクラスタシステムの高信頼化

Principal Investigator

中村 宏 東京大学, 先端科学技術研究センター, 助教授 (20212102)

¥3,500,000 (Direct Cost: ¥3,500,000)

Report

Research Products

[Journal Article] 空間的・時間的な故障率の変動を考慮したチェックポインティング手法の初期検討2005

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 多重故障に適応したSkewed Checkpointingの提案2004

Author(s)

Journal Title

Related Report

[Journal Article] Skewed Checkpointing for Tolerating Multi-Node Failures2004

Author(s)

Journal Title

Related Report

[Journal Article] 多重故障を考慮した計算機クラスタ向けSkewed Checkpointingの検討2004

Author(s)

Journal Title

NAID

Related Report

中村宏東京大学, 先端科学技術研究センター, 助教授 (20212102)