• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2001 年度 研究成果報告書概要

plug&play並列クラスタ計算機による動的再構成可能で広範な並列処理の実現

研究課題

研究課題/領域番号 12558025
研究種目

基盤研究(B)

配分区分補助金
応募区分展開研究
研究分野 計算機科学
研究機関東京工業大学

研究代表者

松岡 聡  東京工業大学, 学術国際情報センター, 教授 (20221583)

研究分担者 石川 裕  通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
小川 宏高  東京工業大学, 大学院・情報理工学研究科, 助手 (90302968)
合田 憲人  東京工業大学, 大学院・総合理工学研究科, 講師 (80247212)
高木 浩光  通産省産業技術総合研究所, 情報アーキテクチャ部, 主任研究官
研究期間 (年度) 2000 – 2001
キーワードプラグアンドプレイクラスタ / LUCIE / 耐故障性 / グループ通信ライブラリ / Automated Cluster Installation and Configuration / Node hot swap / Large-scale cluster management
研究概要

本年度はプラグアンドプレイクラスタの研究を更に進め、タラスタリングシステムの自己組織化による耐故障性、動的再構築性の研究を行った。プラグアンドプレイクラスタに必要な基盤研究として、故障ノードのホットスワップ機能、動作中クラスタのソフトウェア構成、パーティション構成までを含めた完全な再構成を高速に行う、LUCIEクラスタインストールコンフィグレーションツールをオープンソースソフトウェア開発し配布している(http://culuster-team.is.titech.ac.jp/lucie/)。LUCIEではインストール・管理操作がすべてネットワークを経由して行われ、かつ非対話的なバッチ処理的に実行されるため、数千台規模のクラスタ、及びGRID環境での組織間にまたがるクラスタ管理に適している。運用例として、当松岡研究室のPrestoクラスタ群、CBRCのmini PAPIAクラスタがLUCIEによる管理に移行しており、成果を挙げている。また、2002年度より運用開始のTITECH GRIDのインストール・管理ツールとしても運用予定。
耐故障性に関する取り組みにつき、大規模クラスタ環境では耐故障性が重要だが、従来障害状況への対策方法が不十分だった。本年度は実行時に起こりうる障害状況を分類し、その対処方法を提案し、耐故障機構をそれぞれについて実装を開始。また最頻発の計算時障害に関し、計算自体の再実行及びチェックポインティング・リスタートによる耐故障機構を実装し、再実行、チェックポインティングのオーバーヘッドを評価した。その結果、再実行を行う場合のコスト、チェックポインティング・リスタートを行う場合のコストバランスが重要であることを示し、コスト相関関係評価用のモデルを作成し、実環境において当モデルの妥当性を確認した。
また、これらの研究に共通する基盤ソフトウェアとして、大規模クラスタ環境における効率的なデータの配布、高速なプロセス起動、グループ通信といった機能を目指す、信頼性の高い高効率グループ通信ライブラリの研究開発を行っている。本ライブラリの実装には耐故障性のための階層化リング構造と、SSLをベースにした認証を用いており、大規模クラスタで必要となるスケーラビリティ、GRID上で必要となるセキュリティ、高信頼性を達成している。

  • 研究成果

    (13件)

すべて その他

すべて 文献書誌 (13件)

  • [文献書誌] Yoshiaki Sakae, Sattoshi Matsuoka: "MPC++ Performance for Commodity Clustering"Proceedings of High Performance Network Computing. LNCS No.2110. 503-512 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 栄 純明, 松岡 聡, 佐藤 三久, 長谷川 篤史, 原田 浩: "ソフトウェア分散共有メモリ上のOpenMP Omni/SCASHのSPLASH2による性能評価"情報処理学会研究報告. HPC-85. 187-192 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 高宮 安仁, 松岡 聡: "ユーザ透過な耐故障性を実現するMPIへ向けて"情報処理学会研究報告. HPC-87. 129-134 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 笹生 健, 松岡 聡, 建部 修見: "ヘテロなクラスタ環境における並列LINPACKの最適化"情報処理学会研究報告. HPC-86. 49-54 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Y.Sohda, H.Nakada, S.Matsuoka, H.Ogawa: "Implementation of a Portable Software DSM in Java"Proceedings of ACM JavaGrande/ISCOPE 2001. 163-172 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 岩崎 聖, 松岡 聡, 曽田 哲之, 平野 基孝, 建部 修見, 関口 智嗣: "Grid環境における大規模クラスタ向けジョブマネジメントアーキテクチャの実装および性能評価"情報処理学会研究報告. Vol.2002,No.22. 77-42 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 白砂 哲, 中田 秀基, 松岡 聡: "Ninfシステムにおけるフォールトトレランス"情報処理学会ハイパフォーマンスコンピューティング研究会. Vol.2001,No.77. 153-158 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] 白砂 哲, 中田 秀基, 松岡 聡, 関口 智嗣: "XMLベースGridRPCシステムの構築と評価"日本ソフトウェア科学会 第5回プログラミングおよび応用のシステムに関するワークショップ. (2002)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Satoshi Matsuoka, Shigeo Itou: "Towards performance evaluation of high-performance computing on multiple Java platforms"Future Generation Computer System. 18. 281-291 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Yoshiaki Sakae, Satoshi Matsuoka: "MPC++ Performance for Commodity Clustering"Proc. High Performance Network Computing. 503-512 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Yukishiko Sohda, Hidemoto Nakada, Satoshi Matsuoka: "Implementation of a Portable Software DSM in Java"Proc. ACM Java Grande/ISCOPE 2001. 163-172 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Satoshi Matsuoka, Shigeo Itou: "Towards performance evaluation of high-performance computing on multiple Java platforms"Future Generation Computer System. 281-291 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Satoshi Matsuoka: "AjaPack : A Performance Portable Parallel Java Numerical Library"Prod. AGM 2000 Java Grande Conference. 140-149 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より

URL: 

公開日: 2003-09-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi