フォールトトレランスを実現するためのレプリカマネージメントに関する研究
Project/Area Number |
11780203
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
計算機科学
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
CHERIF Adel 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10303322)
|
Project Period (FY) |
1999 – 2000
|
Project Status |
Completed (Fiscal Year 2000)
|
Budget Amount *help |
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2000: ¥400,000 (Direct Cost: ¥400,000)
Fiscal Year 1999: ¥1,800,000 (Direct Cost: ¥1,800,000)
|
Keywords | フォールトトレランス / グレープコミュニケーション / スケジューリング / 分散システム / レプリカ マネージメント / レプリケーション / リプリケーション / リプリカマネージメント / 並列計算 / グループコミュニケーション |
Research Abstract |
APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち疎結合分散環境を仮定している。我々が構築するAPR実行時システムは、その通信機能の部分にはEnsembleグループコミュニケーションレイヤを用いて実装されている。既にAPR実行時システムの設計が完了しており、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。 現在我々は、6台のLinuxオペレーティングシステムをインストールしてPCをギガビットイーサーネットで接続し、ターゲットとなる分散環境として使用している。実行時システムの4つのソフトウェアモジュールは部分的に実装が完了し、完成している部分に関しては上記の分散システムにおいてテストを行った。APR実行時システムとグループコミュニケーションシステムの間のインターフェースの部分については既に実装が完了し、テストを行った。分散システム上でリモートに存在するPE上で計算を実行するためには、EnsembleグループコミュニケーションシステムのRPCの機構などを利用している。 現在はAPR実行時システムの全ての部分について実装を行い、これを統合する作業を主に行っている。 APRのパフォーマンスとスケジューリングの最適化のために、新たにRAFT資源管理システム(Resource Allocation for Fault Tolerance)を提案した。RAFTは、分散環境に存在する資源にAPRアプリケーションで定義された計算を割り当てるために、細粒度のRAFTブロセスに分解し、このRAFTプロセスに対して資源を割り当てることによって、リカバリ時間の短縮を実現し、また負荷分散を容易にするという特徴を持つ。
|
Report
(2 results)
Research Products
(12 results)