• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

フォールトトレランスを実現するためのレプリカマネージメントに関する研究

Research Project

Project/Area Number 11780203
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field 計算機科学
Research InstitutionJapan Advanced Institute of Science and Technology

Principal Investigator

CHERIF Adel  北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10303322)

Project Period (FY) 1999 – 2000
Project Status Completed (Fiscal Year 2000)
Budget Amount *help
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2000: ¥400,000 (Direct Cost: ¥400,000)
Fiscal Year 1999: ¥1,800,000 (Direct Cost: ¥1,800,000)
Keywordsフォールトトレランス / グレープコミュニケーション / スケジューリング / 分散システム / レプリカ マネージメント / レプリケーション / リプリケーション / リプリカマネージメント / 並列計算 / グループコミュニケーション
Research Abstract

APR(Active Parallel Replication)複製技術は、分散環境下での並列計算を、耐故障性を高めつつ効率よく実行するために提案された。APRはその実装環境として、多くのプロセッサ(PC)が高速なネットワークにより接続されている環境、すなわち疎結合分散環境を仮定している。我々が構築するAPR実行時システムは、その通信機能の部分にはEnsembleグループコミュニケーションレイヤを用いて実装されている。既にAPR実行時システムの設計が完了しており、この実行時システムはスタートアップユニット、スケジューリングユニット、フォールトディテクション・リカバリユニット、ワークスペースマネージャユニットの4つのソフトウェアモジュールで構成される。
現在我々は、6台のLinuxオペレーティングシステムをインストールしてPCをギガビットイーサーネットで接続し、ターゲットとなる分散環境として使用している。実行時システムの4つのソフトウェアモジュールは部分的に実装が完了し、完成している部分に関しては上記の分散システムにおいてテストを行った。APR実行時システムとグループコミュニケーションシステムの間のインターフェースの部分については既に実装が完了し、テストを行った。分散システム上でリモートに存在するPE上で計算を実行するためには、EnsembleグループコミュニケーションシステムのRPCの機構などを利用している。
現在はAPR実行時システムの全ての部分について実装を行い、これを統合する作業を主に行っている。
APRのパフォーマンスとスケジューリングの最適化のために、新たにRAFT資源管理システム(Resource Allocation for Fault Tolerance)を提案した。RAFTは、分散環境に存在する資源にAPRアプリケーションで定義された計算を割り当てるために、細粒度のRAFTブロセスに分解し、このRAFTプロセスに対して資源を割り当てることによって、リカバリ時間の短縮を実現し、また負荷分散を容易にするという特徴を持つ。

Report

(2 results)
  • 2000 Annual Research Report
  • 1999 Annual Research Report
  • Research Products

    (12 results)

All Other

All Publications (12 results)

  • [Publications] Cherif Adel: "Replica Management for Fault Tolerant Systems"IEEE MICRO. Volume 18-5. 54-65 (1998)

    • Related Report
      2000 Annual Research Report
  • [Publications] Cherif Adel : "Replica Management for Implementing Fault-Tolerant Systems Based on the Functional Programming Paradigm"Proc.of 5^<th> Maghrebian Conference on Software Engineering and Artificial Intelligence (MCSEAI'98). 231-246 (1998)

    • Related Report
      2000 Annual Research Report
  • [Publications] Masumi Toyoshima: "Design and implementation of Fault Tolerant Parallel Software in a Distributed System Using Functional Language"Proc.of IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems (FTPDS'99). 153-163 (1999)

    • Related Report
      2000 Annual Research Report
  • [Publications] Masumi Toyoshima: "Improving the Efficiency of Replication for Highly Reliable Systems"In Fast Abstracts and Industrial Practices Proc.of the 10^<th> International Symposium on Software Reliability Engineering (ISSRE'99). 27-28 (1999)

    • Related Report
      2000 Annual Research Report
  • [Publications] Masumi Toyoshima: "疎結合分散環境における耐故障ソフトウェアの通信の設計"信学技法. Vo1.99,No.345. 25-32 (1999)

    • Related Report
      2000 Annual Research Report
  • [Publications] Cherif Adel : "Adaptive Computation Management for Fault Tolerance"Proc.of World Multiconference on Systemics, Cybernetics and Informatics (SCI'2000). Vol.III. 650-655 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] Masumi Toyoshima: "Dependable Network Computing (Chap.15)"Kluwer Academic Publishers. 462(19) (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] Cherif Adel: "Replica Management for Fault-tolerant Systems"IEEE MICRO. Volume18-5. 54-65 (1998)

    • Related Report
      1999 Annual Research Report
  • [Publications] Cherif Adel: "Replica Management for Implementing Fault-tolerant Systems Based on the Functional Programming Paradigm"Proc.of 5th Maghrebian Conference on Software Engineering and Artificial Intelligence. 231-246 (1998)

    • Related Report
      1999 Annual Research Report
  • [Publications] 豊島 真澄: "Design and Implementation of Fault Tolerant Parallel Software in a Distributed Systems using Functional Language"Proc.of IEEE Workshop on Fault-Tolerant Parallel and Distributed Systems. 153-163 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] 豊島 真澄: "Improving the Efficiency of Replication for Highly Reliable Systems"Proc.of ISSRE'99 Fast Abstracts. 27-28 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] 豊島 真澄: "Dependable Network Computing (Chap.15)"Kluwer Academic Publishers. 462(19) (2000)

    • Related Report
      1999 Annual Research Report

URL: 

Published: 1999-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi