2023 Fiscal Year Final Research Report
Development of system reliability improvement technology based on medium- to long-term failure prediction
Project/Area Number |
21H03449
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
Egawa Ryusuke 東京電機大学, 工学部, 教授 (80374990)
|
Co-Investigator(Kenkyū-buntansha) |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 高性能計算 / ジョブスケジューリング / 障害 / 予測 / 計算システム |
Outline of Final Research Achievements |
We have conducted research on elemental technologies to improve and maintain the reliability of high-performance computing systems, which are becoming increasingly large and complex. We developed technologies for collecting and aggregating system log messages and health monitoring information, and created a mechanism to predict failures using these data. Besides, to enhance the efficient use of HPC systems, we developed a job scheduling simulator capable of replicating system behavior and designed low-power job scheduling algorithms as well as algorithms for urgent jobs, demonstrating their effectiveness. These technologies have the potential to enhance the reliability and throughput of future HPC systems.
|
Free Research Field |
計算機システム
|
Academic Significance and Societal Importance of the Research Achievements |
高性能計算システムは,科学技術やものづくりのための計算基盤としてばかりでなく,近年,気象予想技術,津波浸水被害予測技術など社会基盤として重要な役割を担っている.このため,システムを安定的,かつ効率的に利用することが強く求められている一方で,システムの高性能化に伴い,システムは大規模化複雑化の一途を辿り,システムの信頼性の向上,堅持が強く求めらている.信頼性だけでなく,システムの効率的利用にも取り組んだ本研究は,将来の高性能計算基盤の運用の効率化に向けた基礎的研究と言えるものであり,社会的にも意味がある.
|