研究課題/領域番号 |
11780203
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
計算機科学
|
研究機関 | 北陸先端科学技術大学院大学 |
研究代表者 |
CHERIF Adel 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10303322)
|
研究期間 (年度) |
1999 – 2000
|
研究課題ステータス |
完了 (2000年度)
|
配分額 *注記 |
2,200千円 (直接経費: 2,200千円)
2000年度: 400千円 (直接経費: 400千円)
1999年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | フォールトトレランス / グレープコミュニケーション / スケジューリング / 分散システム / レプリカ マネージメント / レプリケーション / リプリケーション / リプリカマネージメント / 並列計算 / グループコミュニケーション |
研究概要 |
APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち疎結合分散環境を仮定している。我々が構築するAPR実行時システムは、その通信機能の部分にはEnsembleグループコミュニケーションレイヤを用いて実装されている。既にAPR実行時システムの設計が完了しており、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。 現在我々は、6台のLinuxオペレーティングシステムをインストールしてPCをギガビットイーサーネットで接続し、ターゲットとなる分散環境として使用している。実行時システムの4つのソフトウェアモジュールは部分的に実装が完了し、完成している部分に関しては上記の分散システムにおいてテストを行った。APR実行時システムとグループコミュニケーションシステムの間のインターフェースの部分については既に実装が完了し、テストを行った。分散システム上でリモートに存在するPE上で計算を実行するためには、EnsembleグループコミュニケーションシステムのRPCの機構などを利用している。 現在はAPR実行時システムの全ての部分について実装を行い、これを統合する作業を主に行っている。 APRのパフォーマンスとスケジューリングの最適化のために、新たにRAFT資源管理システム(Resource Allocation for Fault Tolerance)を提案した。RAFTは、分散環境に存在する資源にAPRアプリケーションで定義された計算を割り当てるために、細粒度のRAFTブロセスに分解し、このRAFTプロセスに対して資源を割り当てることによって、リカバリ時間の短縮を実現し、また負荷分散を容易にするという特徴を持つ。
|