• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

空間冗長度の時間畳み込みによるクラスタシステムの高信頼化

Research Project

Project/Area Number 16650008
Research Category

Grant-in-Aid for Exploratory Research

Allocation TypeSingle-year Grants
Research Field Computer system/Network
Research InstitutionThe University of Tokyo

Principal Investigator

中村 宏  東京大学, 先端科学技術研究センター, 助教授 (20212102)

Co-Investigator(Kenkyū-buntansha) 南谷 崇  東京大学, 先端科学技術研究センター, 教授 (80143684)
Project Period (FY) 2004 – 2005
Project Status Completed (Fiscal Year 2005)
Budget Amount *help
¥3,500,000 (Direct Cost: ¥3,500,000)
Fiscal Year 2005: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2004: ¥2,700,000 (Direct Cost: ¥2,700,000)
Keywordsクラスタシステム / 高信頼化 / チェックポインティング / 故障率変動 / 空間的冗長度 / 時間的冗長度 / マルコフモデル
Research Abstract

本研究の目的は、汎用の高性能な計算ノードを多数高速ネットワークで接続するクラスタシステムの高信頼化であり、クラスタシステムの状態を最低限の空間冗長度で保持し、それを時間軸上で畳み込むことでさらに高い冗長度を確保する新しい手法として、skewed checkpointingという新しいチェックポイント方式を提案した。本年度はまず、前年度開発したチェックポイント方式のシミュレータを開発した。これにより、CPU/network/disk等の実システムの性能、および故障率に応じて、アルゴリズムの最適化を実施した場合の効果を検証することが可能となる。その後、提案するチェックポイント方式を実際のクラスタ上にプロトタイプ実装し、状態保存に要する時間、状態復元に要する時間を測定した。提案手法の有効性は、シミュレーションを用いて示すべきだが、そもそも故障は確率的に発生するものなので、結果の精度を上げるためには膨大なシミュレーションをする必要がある。特に、多重故障などの発生確率の低い障害に対する効果を示すことはシミュレーションでは難しい。そこで、マルコフモデルを用いて、性能と信頼性の両方を含むperformabilityの理論解析も実施した。シミュレーション評価から、CPU/network/disk等の実システムの性能、および故障率に応じて最適化する提案チェックポイント方式の有効性が明らかになり、また、この結果が理論解析結果とほぼ一致したことからその検証も行えた。この結果を踏まえ、実行中に故障率が変動する場合に動的にチェックポイント方式を最適化する手法に関しても提案し、シミュレーション評価により、その有効性を示すことができた。故障率が変動する場合の理論解析はまだ不十分であるが、実行中に故障率が変動するという、実環境に即した仮定を考慮することができたのは意義深い成果である。

Report

(2 results)
  • 2005 Annual Research Report
  • 2004 Annual Research Report
  • Research Products

    (4 results)

All 2005 2004

All Journal Article (4 results)

  • [Journal Article] 空間的・時間的な故障率の変動を考慮したチェックポインティング手法の初期検討2005

    • Author(s)
      東美和子, 近藤正章, 今井雅, 中村宏, 南谷崇
    • Journal Title

      信学技報 DC2005-14

      Pages: 7-12

    • NAID

      110003224491

    • Related Report
      2005 Annual Research Report
  • [Journal Article] 多重故障に適応したSkewed Checkpointingの提案2004

    • Author(s)
      田島裕也, 林田卓朗, 近藤正章, 今井雅, 中村宏, 南谷崇
    • Journal Title

      先進的計算基盤システムシンポジウムSACSIC2004

      Pages: 153-154

    • Related Report
      2004 Annual Research Report
  • [Journal Article] Skewed Checkpointing for Tolerating Multi-Node Failures2004

    • Author(s)
      H.Nakamura, T.Hayashida, M.Kondo, Y.Tajima, M.Imai, T.Nanya
    • Journal Title

      Proceedings of IEEE SRDS '04

      Pages: 116-125

    • Related Report
      2004 Annual Research Report
  • [Journal Article] 多重故障を考慮した計算機クラスタ向けSkewed Checkpointingの検討2004

    • Author(s)
      田島裕也, 林田卓朗, 近藤正章, 今井雅, 中村宏, 南谷崇
    • Journal Title

      信学技報 DC2004-19(2004-07)

      Pages: 37-42

    • NAID

      110003173715

    • Related Report
      2004 Annual Research Report

URL: 

Published: 2004-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi