• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Development of system reliability improvement technology based on medium- to long-term failure prediction

Research Project

Project/Area Number 21H03449
Research InstitutionTokyo Denki University

Principal Investigator

江川 隆輔  東京電機大学, 工学部, 教授 (80374990)

Co-Investigator(Kenkyū-buntansha) 滝沢 寛之  東北大学, サイバーサイエンスセンター, 教授 (70323996)
谷村 勇輔  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80415710)
滝澤 真一朗  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
Project Period (FY) 2021-04-01 – 2024-03-31
Keywords高性能計算 / 障害発生予測 / ジョブスケジューリング
Outline of Annual Research Achievements

性能計算システムの大規模化・複雑化に伴い,高い信頼性のもとで安定したシステム運用を行うためには,事前にシステムの障害を予測し,障害を回避しながらシステムに投入されたプログラムを実行する必要がある.そこで本研究では,従来の大規模高性能計算システムの高信頼化技術と大規模データ解析技術を融合させることで,将来起こりえる障害に対する対応策を導き出すことが可能な高性能計算システムの信頼化技術に関する研究に取り組んだ.
昨年までの研究成果に基づき,機械学習を活用することでシステムログ,ヘルスモニタリング情報を分析し,高性能計算システムの障害発生予測機構を開発してきた.今年度は,LSTM(Long Short Term Memory)オートエンコーダとGRU(Gated Recurrent Unit)オートエンコーダを用いた障害発生予測機構を実装し,公開されている高性能計算システムのシステムログを用いた評価では,一定の時間を要するものの,昨年度の実装よりも高い精度で障害発生を予測可能であることを確認した.
また,昨年度までに開発した高性能計算システムの挙動を詳細に再現可能なジョブスケジューリングシミュレータを用いてジョブスケジューリングアルゴリズムに関する研究にも取り組んだ.また,計算ノード間だけでなく,プログラムの特性解析に基づいて異種複数のプロセッサから構成される計算ノード内における計算資源の共有による複数プログラム実行方式に関する検討も行い,その有用性を確認した.

Research Progress Status

令和5年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和5年度が最終年度であるため、記入しない。

  • Research Products

    (5 results)

All 2024 2023

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (2 results)

  • [Journal Article] AOBA: The Most Powerful Vector Supercomputer in the World2024

    • Author(s)
      -Hiroyuki Takizawa, Keichi Takahashi, Yoichi Shimomura, Ryusuke Egawa, Kenji Oizumi, Satoshi Ono, Takeshi Yamashita, Atsuko Saito
    • Journal Title

      Sustained Simulation Performance 2022

      Volume: - Pages: 71~81

    • DOI

      10.1007/978-3-031-41073-4_6

    • Peer Reviewed
  • [Journal Article] Balancing exploitation and exploration in parallel Bayesian optimization under computing resource constraint2023

    • Author(s)
      Moto Satake, Keichi Takahashi, Yoichi Shimomura, Hiroyuki Takizawa
    • Journal Title

      Proceedings of The 18th International Workshop on Automatic Performance Tuning (iWAPT 2023)

      Volume: - Pages: 706-713

    • DOI

      10.1109/IPDPSW59300.2023.00122

    • Peer Reviewed
  • [Journal Article] Performance Evaluation of a Next-Generation SX-Aurora TSUBASA Vector Supercomputer2023

    • Author(s)
      Keichi Takahashi, Soya Fujimoto, Satoru Nagase, Yoko Isobe, Yoichi Shimomura, Ryusuke Egawa, Hiroyuki Takizawa
    • Journal Title

      Proceedings of ISC High Performance 2023

      Volume: - Pages: 359~378

    • DOI

      10.1007/978-3-031-32041-5_19

    • Peer Reviewed
  • [Presentation] 探索と活用の調整による並列ベイズ最適化の効率化2023

    • Author(s)
      佐竹望都, 高橋慧智, 下村陽一, 滝沢寛之
    • Organizer
      第188回HPC研究発表会
  • [Presentation] ベクトルプロセッサを用いた統計的機械学習に関する研究2023

    • Author(s)
      幸田 涼詩, 高橋 慧智, 下村 陽一, 滝沢 寛之
    • Organizer
      xSIG 2023

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi