2001 Fiscal Year Annual Research Report
plug&play並列クラスタ計算機による動的再構成可能で広範な並列処理の実現
Project/Area Number |
12558025
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
Co-Investigator(Kenkyū-buntansha) |
石川 裕 通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
小川 宏高 東京工業大学, 大学院・情報理工学研究科, 助手 (90302968)
合田 憲人 東京工業大学, 大学院・情報理工学研究科, 講師 (80247212)
高木 浩光 通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
|
Keywords | プラグアンドプレイクラスタ / LUCIE / 耐故障性 / グループ通信ライブラリ |
Research Abstract |
本年度はプラグアンドプレイクラスタの研究を更に進め、クラスタリングシステムの自己組織化による耐故障性、動的再構築性の研究を行った。プラグアンドプレイクラスタに必要な基盤研究として、故障ノードのホットスワップ機能、動作中クラスタのソフトウェア構成、パーティション構成までを含めた完全な再構成を高速に行う、LUCIEクラスタインストールコンフィグレーションツールをオープンソースソフトウェア開発し配布している(http://cluster-team.is.titech.ac.jp/lucie/)。LUCIEではインストール・管理操作がすべてネットワークを経由して行われ、かつ非対話的なバッチ処理的に実行されるため、数千台規模のクラスタ、及びGRID環境での組織間にまたがるクラスタ管理に適している。運用例として、当松岡研究室のPrestoクラスタ郡、CBRCのmini PAPIAクラスタがLUCIEによる管理に移行しており、成果を挙げている。また、2002年度より運用開始のTITECH GRIDのインストール・管理ツールとしても運用予定。 耐故障性に関する取り組みにつき、大規模クラスタ環境では耐故障性が重要だが、従来障害状況への対策方法が不十分だった。本年度は実行時に起こりうる障害状況を分類し、その対処方法を提案し、耐故障機構をそれぞれについて実装を開始。また最頻発の計算時障害に関し、計算自体の再実行及びチェックポインティング・リスタートによる耐故障機構を実装し、再実行、チェックポインティングのオーバーヘッドを評価した。その結果、再実行を行う場合のコスト、チェックポインティング・リスタートを行う場合のコストバランスが重要であることを示し、コスト相関関係評価用のモデルを作成し、実環境において当モデルの妥当性を確認した。 また、これらの研究に共通する基盤ソフトウェアとして、大規模クラスタ環境における効率的なデータの配布、高速なプロセス起動、グループ通信といった機能を目指す、信頼性の高い高効率グループ通信ライブラリの研究開発を行っている。本ライブラリの実装には耐故障性のための階層化リビング構造と、SSLをベースにした認証を用いており、大規模クラスタで必要となるスケーラビリティ、GRID上で必要となるセキュリティ、高信頼性を構成している。
|
-
[Publications] Yoshiaki Sakae, Satoshi Matsuoka: "MPC++Performance for Commodity Clustering"Proceedings of High Performance Network Computing. LNCS No.2110. 503-512 (2001)
-
[Publications] 栄 純明, 松岡 聡, 佐藤 三久, 長谷川 篤史, 原田 浩: "ソフトウェア分散共有メモリ上のOpenMP Omni/SCASHのSPLASH2による性能評価"情報処理学会研究報告. HPC・85. 187-192 (2001)
-
[Publications] 高宮 安仁, 松岡 聡: "ユーザ透過な耐故障性を実現するMPIへ向けて"情報処理学会研究報告. HPC・87. 129-134 (2001)
-
[Publications] 笹生 健, 松岡 聡, 建部 修見: "ヘテロなクラスタ環境における並列LINPACKの最適化"情報処理学会研究報告. HPC・86. 49-54 (2001)
-
[Publications] Y.Sohda, H.Nakada, S.Matsuoka, H.Ogawa: "Implementation of a Portable Software DSM in Java"Proceedings of ACM Java Grande/ISCOPE2001. 163-172 (2001)
-
[Publications] 岩崎 聖, 松岡 聡, 曽田 哲之, 平野 基孝, 建部 修見, 関口 智嗣: "Grid環境における大規模クラスタ向けジョブマネジメントアーキテクチャの実装および性能評価"情報処理学会研究報告. Vol.2002, No.22. 37-42 (2002)
-
[Publications] 白砂 哲, 中田 秀基, 松岡 聡: "Ninfシステムにおけるフォールトトレランス"情報処理学会ハイパフォーマンスコンピューティング研究会. Vol.2001, No.77. 153-158 (2001)
-
[Publications] 白砂 哲, 中田 秀基, 松岡 聡, 関口 智嗣: "XMLベースGridRPCシステムの構築と評価"日本ソフトウェア科学会 第5回プログラミングおよび応用のシステムに関するワークショップ. (2002)
-
[Publications] Satoshi Matsuoka, Shigeo Itou: "Towards performance evaluation of high-performance computing on multiple Java platforms"Future Generation Computer System. 18. 281-291 (2001)