2004 Fiscal Year Annual Research Report
クラスタシステムにおける高信頼化技術の評価および設計法の検討
Project/Area Number |
02F02782
|
Research Institution | The University of Tokyo |
Principal Investigator |
南谷 崇 東京大学, 先端科学技術研究センター, 教授
|
Co-Investigator(Kenkyū-buntansha) |
GAO Wen 東京大学, 先端科学技術研究センター, 外国人特別研究員
|
Keywords | 耐故障性 / クラスタシステム / チェックポイント / リカバリー |
Research Abstract |
耐故障性を提供するためにcoordinatedチェックポインティング、ロールバックリカバリ、およびwatch-dog timerを提供するクラスタソフトウェア環境であるSCoreクラスタシステムソフトウェア上に、より高速なチェックポインティング手法を開発し実装を行った。従来のSCoreにおけるチェックポインティングでは、ディスク書き込みが性能のボトルネックとなっていることがこれまでの研究で明らかになっているため、ディスク書き込みのオーバヘッドを削減するために、メモリの更新履歴をノード内の主記憶に、またその主記憶が故障したときにも障害から回復できるよう、定期的に他のノードに主記憶イメージを転送して保存するチェックポインティング手法を開発した。本チェックポインティング手法を解析した結果、SCoreオリジナルのチェックポインティングや、その他のチェックポインティング手法に比べ、高速であることがわかった。また障害回復にかかる時間も抑えることができることもわかった。 Dawningは、中国のいくつかの研究機関が共同で開発している高性能計算機であり、その通信コンポーネントを形成するソフトウェアアーキテクチャの中に、BCLと呼ばれる高速通信ライブラリが用意されている。提案するチェックポインティング手法を、BCLをベースとしてソフトウェアアーキテクチャに組み込み、Dawningシステムの可能性を向上させるための検討を行った。
|