2000 Fiscal Year Annual Research Report
フォールトトレランスを実現するためのレプリカマネージメントに関する研究
Project/Area Number |
11780203
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
CHERIF Adel 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10303322)
|
Keywords | フォールトトレランス / グレープコミュニケーション / スケジューリング / 分散システム / レプリカ マネージメント / レプリケーション |
Research Abstract |
APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち疎結合分散環境を仮定している。我々が構築するAPR実行時システムは、その通信機能の部分にはEnsembleグループコミュニケーションレイヤを用いて実装されている。既にAPR実行時システムの設計が完了しており、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。 現在我々は、6台のLinuxオペレーティングシステムをインストールしてPCをギガビットイーサーネットで接続し、ターゲットとなる分散環境として使用している。実行時システムの4つのソフトウェアモジュールは部分的に実装が完了し、完成している部分に関しては上記の分散システムにおいてテストを行った。APR実行時システムとグループコミュニケーションシステムの間のインターフェースの部分については既に実装が完了し、テストを行った。分散システム上でリモートに存在するPE上で計算を実行するためには、EnsembleグループコミュニケーションシステムのRPCの機構などを利用している。 現在はAPR実行時システムの全ての部分について実装を行い、これを統合する作業を主に行っている。 APRのパフォーマンスとスケジューリングの最適化のために、新たにRAFT資源管理システム(Resource Allocation for Fault Tolerance)を提案した。RAFTは、分散環境に存在する資源にAPRアプリケーションで定義された計算を割り当てるために、細粒度のRAFTブロセスに分解し、このRAFTプロセスに対して資源を割り当てることによって、リカバリ時間の短縮を実現し、また負荷分散を容易にするという特徴を持つ。
|
-
[Publications] Cherif Adel: "Replica Management for Fault Tolerant Systems"IEEE MICRO. Volume 18-5. 54-65 (1998)
-
[Publications] Cherif Adel : "Replica Management for Implementing Fault-Tolerant Systems Based on the Functional Programming Paradigm"Proc.of 5^<th> Maghrebian Conference on Software Engineering and Artificial Intelligence (MCSEAI'98). 231-246 (1998)
-
[Publications] Masumi Toyoshima: "Design and implementation of Fault Tolerant Parallel Software in a Distributed System Using Functional Language"Proc.of IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems (FTPDS'99). 153-163 (1999)
-
[Publications] Masumi Toyoshima: "Improving the Efficiency of Replication for Highly Reliable Systems"In Fast Abstracts and Industrial Practices Proc.of the 10^<th> International Symposium on Software Reliability Engineering (ISSRE'99). 27-28 (1999)
-
[Publications] Masumi Toyoshima: "疎結合分散環境における耐故障ソフトウェアの通信の設計"信学技法. Vo1.99,No.345. 25-32 (1999)
-
[Publications] Cherif Adel : "Adaptive Computation Management for Fault Tolerance"Proc.of World Multiconference on Systemics, Cybernetics and Informatics (SCI'2000). Vol.III. 650-655 (2000)
-
[Publications] Masumi Toyoshima: "Dependable Network Computing (Chap.15)"Kluwer Academic Publishers. 462(19) (2000)