研究概要 |
本研究課題においては,Accrual Failure Detectorを用いた大規模システムのためのモニタリングシステム構築のために,局所的な故障情報の伝搬に関するアルゴリズムと故障情報を伝搬するNotification Systemの設計を提案し,その成果は学術誌International Journal of High Performance Computing and Networkingに掲載された.このNotification Systemは故障検出器と連動し,分散システム内の故障検出器がeventualに同一の情報を保持することにより,故障情報の問い合わせ時間を短縮することができる.さらに,故障検出器の故障やシステム全体の再構成などにも自律的に追随するように設計されている.また,Accrual Failure Detector自体のさらなる改良を加え,ACCMOS故障検出器を実装した.ACCMOSのパラメータ最適化や性能評価を目的として,様々なネットワーク環境において実験を行った結果,従来の実装よりも大幅な故障検出精度の向上が見られた.この実装,実験結果を査読付国内会議である,情報処理学会第17回マルチメディア通信と分散処理ワークショップにて発表し,最優秀論文賞として評価された.対外的には,FacebookやTwitterなどで用いられている大規模分散データベース管理システムCassandraの故障検出器としてAccrual Failure Detectorが実装され,Cassandraの高い可用性を実現している.我々が提案したAccrual Failure Detector方式の故障検出機構は世界的に高く評価され,今日,実際のサービスを支える存在になったといえる.
|