• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

中・長期障害発生予測に基づくシステム高信頼化技術の開拓

研究課題

研究課題/領域番号 21H03449
研究機関東京電機大学

研究代表者

江川 隆輔  東京電機大学, 工学部, 教授 (80374990)

研究分担者 滝沢 寛之  東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
研究期間 (年度) 2021-04-01 – 2024-03-31
キーワード高性能計算 / 障害発生 / 障害発生予測 / ジョブスケジューリング
研究実績の概要

本研究の目的は,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術を確立することにある.2022年度は,特に,システムのヘルスモニタリング情報と障害発生の因果関係を解明することで,中長期的な障害発生予測・検知を可能とする要素技術とこれらの予測に基づいたシステムの信頼性を堅持・向上させるためのシステム運用技術に関する研究に取り組んだ.
障害発生予測機構については,前年度の基本設計に基づき本機構の実装と評価に取り組んだ.高性能計算システムにおける障害発生においては,教師あり学習による機械学習を用いたの異常検知は困難であることを明らかにし,教師なし学習による異常検知機構の実装に取り組んだ.特に,オートエンコーダを用いた障害発生予測に焦点を当て, 高性能計算システムにおけるにおけるヘルスモニタリング情報,システムログを用いた評価を行った.全結合型オートエンコーダを用いた予測では,予測精度が限定的であることを示し,畳み込みオートエンコーダを用いることで,一定の予測精度を達成できることを明らかにした.
運用技術に関しては,高性能計算システムにおけるジョブ実行状況や消費電力等を再現可能なシミュレータを開発し,システムのスループット,並びに消費電力を考慮したジョブスケジューリング機構の検討を行った.また,近年の高性能計算システムは,社会インフラとしても重要な役割を担っていることを踏まえ,緊急ジョブと呼ばれる優先度の高いジョブを効率的に処理可能なジョブスケジューリングアルゴリズムの検討・評価にも取り組んだ.
.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

2022年度は障害発生予測機構の基本設計及び,並びに評価環境となるジョブスケジューリングシミュレータの実装を終え,高性能計算システムの挙動を再現しながら,詳細な評価が可能な環境を構築できた.
これらの成果に基づいた評価により,現在の障害発生予測機構には予測精度に改善の余地があること,障害発生予測には一定の時間を要することが明らかになり,提案する機構の実利用に向けた課題を明確にすることができた.
2021年度同様,コロナ禍で調査研究に関する研究計画に変更は生じたが,本研究を進めるのに必要不可欠な機構,環境の実装がができたため,2022年度は概ね順調に進展していると判断する.

今後の研究の推進方策

障害発生予測機構に関しては,中長期障害発生予測機構の実用化に向けて,本年度の取り組みにより予測精度,予測時間に改善の余地があることを明らかにしているため,これらを克服可能な技術について検討を進める.これらの評価においては,これまでに採取したデータに加え,公開されている多様なデータセットを用いることで,ヘルスモニタリング情報やシステムログと障害発生の因果関係に関する詳細な検討を進める予定でいる.
また,ジョブスケジューリングに関しては,障害を回避しながら,有事にも効率的なシステム運用が可能となるジョブスケジューリングアルゴリズム,計算ノード内だけでなく,異種混合のプロセッサから構成される計算ノード内の効率的な利用に関する方式の検討を進める,

  • 研究成果

    (10件)

すべて 2023 2022

すべて 雑誌論文 (6件) (うち国際共著 1件、 査読あり 5件) 学会発表 (4件) (うち招待講演 1件)

  • [雑誌論文] oward Building a Digital Twin of Job Scheduling and Power Management on an HPC System2023

    • 著者名/発表者名
      Tatsuyoshi Ohmura, Yoichi Shimomura, Ryusuke Egawa and Hiroyuki Takizawa
    • 雑誌名

      Job Scheduling Strategies for Parallel Processing (JSSPP 2022)

      巻: - ページ: 47~67

    • DOI

      10.1007/978-3-031-22698-4_3

    • 査読あり
  • [雑誌論文] A Task-Parallel Runtime for Heterogeneous Multi-node Vector Systems2023

    • 著者名/発表者名
      Kazuki Ide, Keichi Takahashi, Yoichi Shimomura, and Hiroyuki Takizawa
    • 雑誌名

      Proceedings of 23rd International Conference on Parallel and Distributed Computing, Applications and Technologies (PDCAT 2022)

      巻: - ページ: 331~343

    • DOI

      10.1007/978-3-031-29927-8_26

    • 査読あり
  • [雑誌論文] Equivalence Checking of?Code Transformation by?Numerical and?Symbolic Approaches2023

    • 著者名/発表者名
      Shunpei Sugawara, Keichi Takahashi, Yoichi Shimomura, Ryusuke Egawa, and Hiroyuki Takizawa
    • 雑誌名

      Proceedings of 23rd International Conference on Parallel and Distributed Computing, Applications and Technologies (PDCAT 2022)

      巻: - ページ: 373~386

    • DOI

      10.1007/978-3-031-29927-8_29

    • 査読あり
  • [雑誌論文] Xevolver for Performance Tuning of C Programs2023

    • 著者名/発表者名
      -Hiroyuki Takizawa, Shunpei Sugawara, Yoichi Shimomura, Keichi Takahashi, Ryusuke Egawa
    • 雑誌名

      Sustained Simulation Performance 2021

      巻: - ページ: 85~93

    • DOI

      10.1007/978-3-031-18046-0_6

  • [雑誌論文] Evaluating the performance and conformance of a SYCL implementation for SX-Aurora TSUBASA2022

    • 著者名/発表者名
      Li Jiahao、Agung Mulya、Takizawa Hiroyuki
    • 雑誌名

      Proceedings of The 22nd International Conference on Parallel and Distributed Computing, Applications and Technologies (PDCAT’21)

      巻: - ページ: 36~47

    • DOI

      10.1007/978-3-030-96772-7_4

    • 査読あり / 国際共著
  • [雑誌論文] A Real-time Flood Inundation Prediction on SX-Aurora TSUBASA2022

    • 著者名/発表者名
      Yoichi Shimomura, Akihiro Musa, Yoshihiko Sato, Atsuhiko Konja, Guoqing Cui, Rei Aoyagi, Keichi Takahashi, and Hiroyuki Takizawa
    • 雑誌名

      Proceedings of 29th International Conference on High Performance Computing, Data, and Analytics (HiPC)

      巻: - ページ: 192--197

    • DOI

      10.1109/HiPC56025.2022.00035

    • 査読あり
  • [学会発表] 使える高性能計算機システムの実現にむけて2023

    • 著者名/発表者名
      江川隆輔
    • 学会等名
      学術情報メディアセンターセミナー「時代に合ったHPCの活用」
    • 招待講演
  • [学会発表] 計算特性に着目した実行時間予測に基づくリアルタイム洪水シミュレーションの動的資源割当2022

    • 著者名/発表者名
      青柳嶺, 高橋慧智, 下村陽一, 滝沢寛之
    • 学会等名
      第185回HPC研究発表会
  • [学会発表] 機械学習に基づくジョブスケジューリングのためのGANによるデータ拡張2022

    • 著者名/発表者名
      石井翔, 高橋慧智, 下村陽一, 滝沢寛之
    • 学会等名
      第185回HPC研究発表会
  • [学会発表] 緊急ジョブの優先実行を考慮したジョブスケジューリングに関する一検討2022

    • 著者名/発表者名
      中井大貴, 大村竜義, 高橋慧智, 下村陽一, 滝沢寛之
    • 学会等名
      第187回HPC研究発表会

URL: 

公開日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi