研究課題/領域番号 |
21H03449
|
研究機関 | 東京電機大学 |
研究代表者 |
江川 隆輔 東京電機大学, 工学部, 教授 (80374990)
|
研究分担者 |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 高性能計算 / 障害発生 / 障害発生予測 / ジョブスケジューリング |
研究実績の概要 |
本研究の目的は,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術を確立することにある.2022年度は,特に,システムのヘルスモニタリング情報と障害発生の因果関係を解明することで,中長期的な障害発生予測・検知を可能とする要素技術とこれらの予測に基づいたシステムの信頼性を堅持・向上させるためのシステム運用技術に関する研究に取り組んだ. 障害発生予測機構については,前年度の基本設計に基づき本機構の実装と評価に取り組んだ.高性能計算システムにおける障害発生においては,教師あり学習による機械学習を用いたの異常検知は困難であることを明らかにし,教師なし学習による異常検知機構の実装に取り組んだ.特に,オートエンコーダを用いた障害発生予測に焦点を当て, 高性能計算システムにおけるにおけるヘルスモニタリング情報,システムログを用いた評価を行った.全結合型オートエンコーダを用いた予測では,予測精度が限定的であることを示し,畳み込みオートエンコーダを用いることで,一定の予測精度を達成できることを明らかにした. 運用技術に関しては,高性能計算システムにおけるジョブ実行状況や消費電力等を再現可能なシミュレータを開発し,システムのスループット,並びに消費電力を考慮したジョブスケジューリング機構の検討を行った.また,近年の高性能計算システムは,社会インフラとしても重要な役割を担っていることを踏まえ,緊急ジョブと呼ばれる優先度の高いジョブを効率的に処理可能なジョブスケジューリングアルゴリズムの検討・評価にも取り組んだ. .
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2022年度は障害発生予測機構の基本設計及び,並びに評価環境となるジョブスケジューリングシミュレータの実装を終え,高性能計算システムの挙動を再現しながら,詳細な評価が可能な環境を構築できた. これらの成果に基づいた評価により,現在の障害発生予測機構には予測精度に改善の余地があること,障害発生予測には一定の時間を要することが明らかになり,提案する機構の実利用に向けた課題を明確にすることができた. 2021年度同様,コロナ禍で調査研究に関する研究計画に変更は生じたが,本研究を進めるのに必要不可欠な機構,環境の実装がができたため,2022年度は概ね順調に進展していると判断する.
|
今後の研究の推進方策 |
障害発生予測機構に関しては,中長期障害発生予測機構の実用化に向けて,本年度の取り組みにより予測精度,予測時間に改善の余地があることを明らかにしているため,これらを克服可能な技術について検討を進める.これらの評価においては,これまでに採取したデータに加え,公開されている多様なデータセットを用いることで,ヘルスモニタリング情報やシステムログと障害発生の因果関係に関する詳細な検討を進める予定でいる. また,ジョブスケジューリングに関しては,障害を回避しながら,有事にも効率的なシステム運用が可能となるジョブスケジューリングアルゴリズム,計算ノード内だけでなく,異種混合のプロセッサから構成される計算ノード内の効率的な利用に関する方式の検討を進める,
|