1999 Fiscal Year Annual Research Report
フォールトトレランスを実現するためのレプリカマネージメントに関する研究
Project/Area Number |
11780203
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
CHERIF Adel 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10303322)
|
Keywords | フォールトトレランス / リプリケーション / リプリカマネージメント / 並列計算 / 分散システム / グループコミュニケーション |
Research Abstract |
APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち粗結合分散環境を仮定している。我々が構築するAPR実行時システムは、Ensembleグループコミュニケーションレイヤ上に実装される。現在までにAPR実行時システムの設計が完了し、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。現在はAPRの実行に必要なアルゴリズムの記述が完了し、シングルプロセッサを用いて分散環境のシミュレーションを行っている。スタートアップユニットは計算の起動を行う際のいくつかの手続きを行う部分であり、これの実装とテストがすでに完了した。スケジューリングユニットの実装においては、まず、ACMS(Adaptive Computation Management Scheme)と呼ぶスケジューリングの手法を定義し、アルゴリズムを記述した。ACMSは耐故障性を保証しながら効率の良い計算を行うために、2つのスケジューリングポリシーを複合させたものである。これらのアルゴリズムの実装とテストは完了し、さらにvalue failureを検出するアルゴリズムについては実装とテストを行った。今後我々はAPR実行時システムとEnsembleグループコミュニケーションレイヤの間のインターフェースの設計と実装を行う。APR実行時システムではEnsembleグループコミュニケーションレイヤをレプリカ間の通信とクラッシュ障害の検出に用いる。また現在、RPC(遠隔手続き呼び出し)の実装をEnsembleグループコミュニケーションレイヤのRPCをもとにして行っている。最後に我々は対象となる分散環境をセットアップして、これに実装したAPR実行時システムをインストールし、パフォーマンス評価を行う予定である。
|
Research Products
(5 results)
-
[Publications] Cherif Adel: "Replica Management for Fault-tolerant Systems"IEEE MICRO. Volume18-5. 54-65 (1998)
-
[Publications] Cherif Adel: "Replica Management for Implementing Fault-tolerant Systems Based on the Functional Programming Paradigm"Proc.of 5th Maghrebian Conference on Software Engineering and Artificial Intelligence. 231-246 (1998)
-
[Publications] 豊島 真澄: "Design and Implementation of Fault Tolerant Parallel Software in a Distributed Systems using Functional Language"Proc.of IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems. 153-163 (1999)
-
[Publications] 豊島 真澄: "Improving the Efficiency of Replication for Highly Reliable Systems"Proc.of ISSRE'99 Fast Abstracts. 27-28 (1999)
-
[Publications] 豊島 真澄: "Dependable Network Computing (Chap.15)"Kluwer Academic Publishers. 462(19) (2000)