2023 Fiscal Year Annual Research Report
Development of system reliability improvement technology based on medium- to long-term failure prediction
Project/Area Number |
21H03449
|
Research Institution | Tokyo Denki University |
Principal Investigator |
江川 隆輔 東京電機大学, 工学部, 教授 (80374990)
|
Co-Investigator(Kenkyū-buntansha) |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 高性能計算 / 障害発生予測 / ジョブスケジューリング |
Outline of Annual Research Achievements |
性能計算システムの大規模化・複雑化に伴い,高い信頼性のもとで安定したシステム運用を行うためには,事前にシステムの障害を予測し,障害を回避しながらシステムに投入されたプログラムを実行する必要がある.そこで本研究では,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術に関する研究に取り組んだ. 昨年までの研究成果に基づき,機械学習を活用することでシステムログ,ヘルスモニタリング情報を分析し,高性能計算システムの障害発生予測機構を開発してきた.今年度は,LSTM(Long Short Term Memory)オートエンコーダとGRU(Gated Recurrent Unit)オートエンコーダを用いた障害発生予測機構を実装し,公開されている高性能計算システムのシステムログを用いた評価では,一定の時間を要するものの,昨年度の実装よりも高い精度で障害発生を予測可能であることを確認した. また,昨年度までに開発した高性能計算システムの挙動を詳細に再現可能なジョブスケジューリングシミュレータを用いてジョブスケジューリングアルゴリズムに関する研究にも取り組んだ.また,計算ノード間だけでなく,プログラムの特性解析に基づいて異種複数のプロセッサから構成される計算ノード内における計算資源の共有による複数プログラム実行方式に関する検討も行い,その有用性を確認した.
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|