2021 Fiscal Year Annual Research Report
Development of system reliability improvement technology based on medium- to long-term failure prediction
Project/Area Number |
21H03449
|
Research Institution | Tokyo Denki University |
Principal Investigator |
江川 隆輔 東京電機大学, 工学部, 教授 (80374990)
|
Co-Investigator(Kenkyū-buntansha) |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 高性能計算 / 障害発生 / 障害発生予測 / ジョブスケジューリング |
Outline of Annual Research Achievements |
本研究の目的は,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術を確立することにある.システムのヘルスモニタリング情報と障害発生の因果関係を解明することで,中長期的な障害発生予測・検知技術の開発に取り組み,これらの予測に基づいたシステムの信頼性を堅持・向上させるための施策をシステマティックに適用可能な要素技術に関する研究開発に取り組んだ. 2021年度は,高性能計算システムシステムのシステムログやヘルスモニタリング情報と障害発生履歴の相関関係を解明することを目的に,これらの情報を蓄積するデータベースの基本設計と障害発生予測手法の検討を行った.データベースは再利用性と拡張性を考慮して設計し.今後実システムで生じる障害を記録,蓄積することを可能にしている.障害発生予測に関しては現在の当研究で対象としているシステムに障害発生事例数の制約により,一般に公開されている高性能計算システムの障害履歴・システムログ・エラーメッセージ・アラートなどから構成される大規模データを用いた予測手法の基本設計に着手し初期評価が可能な段階である. また,障害回避・復旧に関しては,ホスト・アクセラレータから構成されるヘテロジニアスな構成計算システムにおけるジョブスケジューリング手法と,次年度以降に障害回避・復旧機構を評価可能とするジョブスケジューリングシミュレータの基本設計に着手した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
障害発生予測に関しては,障害発生予測機構のためのデータベースの基本設計を行い,実システムにおける障害履歴を統一的な形式で記録可能とした. また,障害発生前,発生時には,障害が発生する可能性の高い計算ノード・機器,もしくは障害が発生した計算ノード・機器を回避したジョブリスケジューリングが必要になる.これらのジョブスケジューリングの効果を定量的に評価するためのジョブスケジューリングシミュレータの基本設計を行い,翌年度以降詳細な評価を可能とする環境を構築した. コロナ禍で調査研究に関する研究計画に変更は生じたが,本研究を進める上で基盤となる環境の構築を概ね予定通りに行うことができたため,2021年度は概ね順調に進展していると判断する.
|
Strategy for Future Research Activity |
2022年度以降は,蓄積したヘルスモニタリング情報,障害発生履歴,公開されているシステムログデータ等を用いて障害発生予測機構の詳細な検討を行う,また,ジョブスケジューリングシミュレータの詳細設計に取り組み,障害発生前後にジョブの安定運用を可能とするジョブスケジューリングアルゴリズムに関する研究開発にも取り組む.
|