Project/Area Number |
21H03449
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
Egawa Ryusuke 東京電機大学, 工学部, 教授 (80374990)
|
Co-Investigator(Kenkyū-buntansha) |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥16,770,000 (Direct Cost: ¥12,900,000、Indirect Cost: ¥3,870,000)
Fiscal Year 2023: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
Fiscal Year 2022: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2021: ¥6,630,000 (Direct Cost: ¥5,100,000、Indirect Cost: ¥1,530,000)
|
Keywords | 高性能計算 / ジョブスケジューリング / 障害 / 予測 / 計算システム / 障害発生予測 / 信頼性 / 障害発生 / 高性能計算システム |
Outline of Research at the Start |
将来の高性能計算システムは,システムの大規模化・複雑化が進み,平均故障間隔は数分から数十分と大幅に短縮することが予想されている,このため,長時間に及ぶアプリケーション実行を担保するためには,高性能計算システムの信頼性,耐障害性の堅持は重要な課題となっている.本課題では,システムのヘルスモニタリング情報を解析することで,将来起こりえる障害の中・長期予測を行い,障害を回避しながら安定したシステム運用が可能な技術の開発に取り組む.
|
Outline of Final Research Achievements |
We have conducted research on elemental technologies to improve and maintain the reliability of high-performance computing systems, which are becoming increasingly large and complex. We developed technologies for collecting and aggregating system log messages and health monitoring information, and created a mechanism to predict failures using these data. Besides, to enhance the efficient use of HPC systems, we developed a job scheduling simulator capable of replicating system behavior and designed low-power job scheduling algorithms as well as algorithms for urgent jobs, demonstrating their effectiveness. These technologies have the potential to enhance the reliability and throughput of future HPC systems.
|
Academic Significance and Societal Importance of the Research Achievements |
高性能計算システムは,科学技術やものづくりのための計算基盤としてばかりでなく,近年,気象予想技術,津波浸水被害予測技術など社会基盤として重要な役割を担っている.このため,システムを安定的,かつ効率的に利用することが強く求められている一方で,システムの高性能化に伴い,システムは大規模化複雑化の一途を辿り,システムの信頼性の向上,堅持が強く求めらている.信頼性だけでなく,システムの効率的利用にも取り組んだ本研究は,将来の高性能計算基盤の運用の効率化に向けた基礎的研究と言えるものであり,社会的にも意味がある.
|