研究課題/領域番号 |
12558025
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 展開研究 |
研究分野 |
計算機科学
|
研究機関 | 東京工業大学 |
研究代表者 |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
研究分担者 |
石川 裕 通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
小川 宏高 東京工業大学, 大学院・情報理工学研究科, 助手 (90302968)
合田 憲人 東京工業大学, 大学院・総合理工学研究科, 講師 (80247212)
高木 浩光 通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
|
研究期間 (年度) |
2000 – 2001
|
キーワード | プラグアンドプレイクラスタ / LUCIE / 耐故障性 / グループ通信ライブラリ / Automated Cluster Installation and Configuration / Node hot swap / Large-scale cluster management |
研究概要 |
本年度はプラグアンドプレイクラスタの研究を更に進め、タラスタリングシステムの自己組織化による耐故障性、動的再構築性の研究を行った。プラグアンドプレイクラスタに必要な基盤研究として、故障ノードのホットスワップ機能、動作中クラスタのソフトウェア構成、パーティション構成までを含めた完全な再構成を高速に行う、LUCIEクラスタインストールコンフィグレーションツールをオープンソースソフトウェア開発し配布している(http://culuster-team.is.titech.ac.jp/lucie/)。LUCIEではインストール・管理操作がすべてネットワークを経由して行われ、かつ非対話的なバッチ処理的に実行されるため、数千台規模のクラスタ、及びGRID環境での組織間にまたがるクラスタ管理に適している。運用例として、当松岡研究室のPrestoクラスタ群、CBRCのmini PAPIAクラスタがLUCIEによる管理に移行しており、成果を挙げている。また、2002年度より運用開始のTITECH GRIDのインストール・管理ツールとしても運用予定。 耐故障性に関する取り組みにつき、大規模クラスタ環境では耐故障性が重要だが、従来障害状況への対策方法が不十分だった。本年度は実行時に起こりうる障害状況を分類し、その対処方法を提案し、耐故障機構をそれぞれについて実装を開始。また最頻発の計算時障害に関し、計算自体の再実行及びチェックポインティング・リスタートによる耐故障機構を実装し、再実行、チェックポインティングのオーバーヘッドを評価した。その結果、再実行を行う場合のコスト、チェックポインティング・リスタートを行う場合のコストバランスが重要であることを示し、コスト相関関係評価用のモデルを作成し、実環境において当モデルの妥当性を確認した。 また、これらの研究に共通する基盤ソフトウェアとして、大規模クラスタ環境における効率的なデータの配布、高速なプロセス起動、グループ通信といった機能を目指す、信頼性の高い高効率グループ通信ライブラリの研究開発を行っている。本ライブラリの実装には耐故障性のための階層化リング構造と、SSLをベースにした認証を用いており、大規模クラスタで必要となるスケーラビリティ、GRID上で必要となるセキュリティ、高信頼性を達成している。
|