APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち粗結合分散環境を仮定している。我々が構築するAPR実行時システムは、Ensembleグループコミュニケーションレイヤ上に実装される。現在までにAPR実行時システムの設計が完了し、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。現在はAPRの実行に必要なアルゴリズムの記述が完了し、シングルプロセッサを用いて分散環境のシミュレーションを行っている。スタートアップユニットは計算の起動を行う際のいくつかの手続きを行う部分であり、これの実装とテストがすでに完了した。スケジューリングユニットの実装においては、まず、ACMS(Adaptive Computation Management Scheme)と呼ぶスケジューリングの手法を定義し、アルゴリズムを記述した。ACMSは耐故障性を保証しながら効率の良い計算を行うために、2つのスケジューリングポリシーを複合させたものである。これらのアルゴリズムの実装とテストは完了し、さらにvalue failureを検出するアルゴリズムについては実装とテストを行った。今後我々はAPR実行時システムとEnsembleグループコミュニケーションレイヤの間のインターフェースの設計と実装を行う。APR実行時システムではEnsembleグループコミュニケーションレイヤをレプリカ間の通信とクラッシュ障害の検出に用いる。また現在、RPC(遠隔手続き呼び出し)の実装をEnsembleグループコミュニケーションレイヤのRPCをもとにして行っている。最後に我々は対象となる分散環境をセットアップして、これに実装したAPR実行時システムをインストールし、パフォーマンス評価を行う予定である。
|