Digital twin of a supercomputer for operation monitoring and automation

Research Project

Project/Area Number	22K19764
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 60:Information science, computer engineering, and related fields
Research Institution	Tohoku University
Principal Investigator	滝沢寛之東北大学, サイバーサイエンスセンター, 教授 (70323996)
Project Period (FY)	2022-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000) Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000) Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	ジョブスケジューリング / 高性能計算システム / デジタルツイン
Outline of Research at the Start	ムーアの法則の終焉が近づきスーパーコンピュータの性能向上が鈍化しつつある現在、利用可能なスーパーコンピュータを無駄なく活用することが今まで以上に重要となる。このため、運用中のスーパーコンピュータを忠実に再現する「デジタルツイン」を構築し、自らの運用状態の把握を仮想空間内で行うことで運用を動的に自動最適化する技術の検討と開拓を目指す。本研究では運用への影響の大きいジョブスケジューリングに焦点を絞り、関連するデジタルツインを構築する。その結果に基づいて、デジタルツインで設定の自動調整の妥当性を検証し、自律制御の可能性を議論する。
Outline of Annual Research Achievements	本研究では、実運用システムのジョブスケジューラを忠実に模擬するデジタルツインを開発している。ジョブスケジューリングを模擬するシミュレータはすでに多数開発されているが、デジタルツインと呼べるほどには実運用システムの挙動と一致しないことが事前の検討で分かっている。令和5年度には、実運用システムである東北大学スーパーコンピュータAOBAの増強が行われ、そのシステム構成が大きく変わった。このため、模擬すべき実運用システムの挙動を明らかにするために、AOBAに新規追加されたAOBA-Sサブシステムの詳細な性能評価を行うとともに、利用状況の把握とその模擬の課題を明確化した。実運用システムの利用状況は様々な要因によって変化することから、そのような運用面の変化や制約に対応するジョブスケジューリングやそれを模擬するための研究開発を行った。アクセラレータとそのホストプロセッサなど、異種複数のプロセッサが連携してアプリケーションを実行するシステム構成が、AOBAの中核となるSX-Aurora TSUBASAを含むスーパーコンピュータのシステム構成として一般化している。ただし、どちらか一方しかほとんど利用としないアプリケーションもあり、その場合にはそれぞれのプロセッサで別のアプリケーションを実行することでシステム全体としての性能を高めることができる。しかし、アプリケーション間で共有している計算資源もあるために、干渉によって性能が低下する恐れがある。そのため、性能干渉の少ないアプリケーションの組合せを予測する研究を行い、その成果が学術論文として採録された。アクセラレータとそのホストプロセッサとの性能干渉など、複数ジョブ間で一部の計算資源を共有している場合にその性能干渉を正確にモデル化することは、実運用システムを忠実に模擬するために重要であることが明らかになった。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason ジョブスケジューリングシミュレータの機能拡張が進んでおり、それを用いたジョブスケジューリング手法の研究でも数多くの成果を残すことができた。また、ジョブスケジューリングを忠実に模擬するための技術的課題も明確化しており、本研究課題全体としておおむね順調に進展していると判断している。
Strategy for Future Research Activity	AOBAの中核となるSX-Aurora TSUBASAで、搭載されている2種類のプロセッサのそれぞれで別のアプリケーションを実行する運用が求められている。これは令和6年度に放射光施設NanoTerasuの運用が開始し、AOBAの利用者の傾向が変化することが予期されているからである。そのような運用上の方針検討に資するデジタルツインを構築することで事例研究とし、本研究の成果をまとめることを考えている。異種プロセッサ間やジョブ間の性能干渉のモデル化や予測を行い、さらには利用者の動向まで予測するためにはデータ駆動型のアプローチが必要不可欠である。このため、現在は機械学習を用いたより精度の高い予測手法を検討しており、今後その成果を対外発表していくことを計画している。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(24 results)

All 2024 2023 2022 Other

All Int'l Joint Research (2 results) Journal Article (11 results) (of which Int'l Joint Research: 3 results, Open Access: 10 results, Peer Reviewed: 9 results) Presentation (11 results) (of which Int'l Joint Research: 5 results, Invited: 5 results)

[Int'l Joint Research] University of Edinburgh(英国)
- Related Report
  2022 Research-status Report
[Int'l Joint Research] Universitas Gadjah Mada(インドネシア)
- Related Report
  2022 Research-status Report
[Journal Article] 探索と活用の調整による並列ベイズ最適化の効率化2023
- Author(s)
  佐竹望都, 高橋慧智, 下村陽一, 滝沢寛之
- Journal Title
  
  研究報告ハイパフォーマンスコンピューティング (HPC)
  
  Volume: 2023-HPC-188
- Related Report
  2023 Research-status Report
- Open Access
[Journal Article] Balancing exploitation and exploration in parallel Bayesian optimization under computing resource constraint2023
- Author(s)
  Moto Satake, Keichi Takahashi, Yoichi Shimomura, and Hiroyuki Takizawa
- Journal Title
  
  2023 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW)
  
  Volume: - Pages: 706-713
- DOI
  10.1109/ipdpsw59300.2023.00122
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Efficient Pause Location Prediction Using Quantum Annealing Simulations and Machine Learning2023
- Author(s)
  Michael Zielewski, Keichi Takahashi, Yoichi Shimomura, and Hiroyuki Takizawa
- Journal Title
  
  IEEE Access
  
  Volume: 11 Pages: 104285-104294
- DOI
  10.1109/access.2023.3317698
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Conflict-aware workload co-execution on SX-aurora TSUBASA2023
- Author(s)
  Riku Nunokawa, Yoichi Shimomura, Mulya Agung, Ryusuke Egawa, and Hiroyuki Takizawa
- Journal Title
  
  CCF Transactions on High Performance Computing
  
  Volume: - Issue: 4 Pages: 425-438
- DOI
  10.1007/s42514-023-00171-x
- Related Report
  2023 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] ベクトル型スーパーコンピュータ「AOBA-S」の性能評価2023
- Author(s)
  高橋慧智, 藤本壮也, 長瀬悟, 磯部洋子, 下村陽一, 江川隆輔, 滝沢寛之
- Journal Title
  
  研究報告ハイパフォーマンスコンピューティング (HPC)
  
  Volume: 2023-HPC-191
- Related Report
  2023 Research-status Report
- Open Access
[Journal Article] Performance Evaluation of a Next-Generation SX-Aurora TSUBASA Vector Supercomputer2023
- Author(s)
  Keichi Takahashi, Soya Fujimoto, Satoru Nagase, Yoko Isobe, Yoichi Shimomura, Ryusuke Egawa, and Hiroyuki Takizawa
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 13948 Pages: 359-378
- DOI
  10.1007/978-3-031-32041-5_19
- ISBN
  9783031320408, 9783031320415
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Equivalence Checking of Code Transformation by Numerical and Symbolic Approaches2023
- Author(s)
  Shunpei Sugawara, Keichi Takahashi, Yoichi Shimomura, Ryusuke Egawa, and Hiroyuki Takizawa
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 13798 Pages: 373-386
- DOI
  10.1007/978-3-031-29927-8_29
- ISBN
  9783031299261, 9783031299278
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] Towards Priority-Flexible Task Mapping for Heterogeneous Multi-core NUMA Systems2023
- Author(s)
  Yifan Jin, Mulya Agung, Keichi Takahashi, Yoichi Shimomura, and Hiroyuki Takizawa
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 13798 Pages: 3-15
- DOI
  10.1007/978-3-031-29927-8_1
- ISBN
  9783031299261, 9783031299278
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] A Task-Parallel Runtime for Heterogeneous Multi-node Vector Systems2023
- Author(s)
  Kazuki Ide, Keichi Takahashi, Yoichi Shimomura, and Hiroyuki Takizawa
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 13798 Pages: 331-343
- DOI
  10.1007/978-3-031-29927-8_26
- ISBN
  9783031299261, 9783031299278
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] An Advantage Actor-Critic Deep Reinforcement Learning Method for Power Management in HPC Systems2023
- Author(s)
  Fitra Rahmani Khasyah, Kadek Gemilang Santiyuda, Gabriel Kaunang, Faizal Makhrus, Muhammad Alfian Amrizal, and Hiroyuki Takizawa
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 13798 Pages: 94-107
- DOI
  10.1007/978-3-031-29927-8_8
- ISBN
  9783031299261, 9783031299278
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access / Int'l Joint Research
[Journal Article] A Real-time Flood Inundation Prediction on SX-Aurora TSUBASA2022
- Author(s)
  Yoichi Shimomura, Akihiro Musa, Yoshihiko Sato, Atsuhiko Konja, Guoqing Cui, Rei Aoyagi, Keichi Takahashi, and Hiroyuki Takizawa
- Journal Title
  
  IEEE 29th International Conference on High Performance Computing, Data, and Analytics (HiPC)
  
  Volume: - Pages: 192-197
- DOI
  10.1109/hipc56025.2022.00035
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Presentation] スパコンAOBAの運用開始と将来展望2024
- Author(s)
  滝沢寛之
- Organizer
  Supercomputing JAPAN! 2024
- Related Report
  2023 Research-status Report
- Invited
[Presentation] Tohoku University’s new supercomputer with the third-generationSX-Aurora TSUBASA vector engines2023
- Author(s)
  Hiroyuki Takizawa
- Organizer
  NEC User Group Society Meeting XXXIV
- Related Report
  2023 Research-status Report
- Int'l Joint Research / Invited
[Presentation] アクセラレータ多様化に向けた取り組み～スパコンAOBAを題材に～2023
- Author(s)
  滝沢寛之, 髙橋慧智, 下村陽一
- Organizer
  京都大学学術情報メディアセンターセミナー
- Related Report
  2023 Research-status Report
- Invited
[Presentation] Strategy and Outlook for Expanding the AOBA World2023
- Author(s)
  Hiroyuki Takizawa
- Organizer
  36th Workshop on Susteined Simulation Performance
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Real-time flood inundation simulation on SX-Aurora TSUBASA2023
- Author(s)
  H. Takizawa, Y. Shimomura, A. Musa, Y. Sato, A. Konja, G. Cui, R. Aoyagi, and K. Takahashi
- Organizer
  35th Workshop on Sustained Simulation Performance
- Related Report
  2022 Research-status Report
- Int'l Joint Research / Invited
[Presentation] A Task Mapping Method for Heterogeneous Multi-core NUMA Systems2023
- Author(s)
  Hiroyuki Takizawa, Yifan Jin, Mulya Agung, Keichi Takahashi, and Yoichi Shimomura
- Organizer
  2023 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing
- Related Report
  2022 Research-status Report
- Int'l Joint Research / Invited
[Presentation] AOBA: The most powerful vector supercomputer in the world2022
- Author(s)
  H. Takizawa, K. Takahashi, Y. Shimomura, R. Egawa, K. Oizumi, S. Ono, T. Yamashita, and A. Saito
- Organizer
  34th Workshop on Sustained Simulation Performance
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] 計算特性に着目した実行時間予測に基づくリアルタイム洪水シミュレーションの動的資源割当2022
- Author(s)
  青柳嶺, 髙橋慧智, 下村陽一, 滝沢寛之
- Organizer
  第185回HPC研究会
- Related Report
  2022 Research-status Report
[Presentation] 機械学習に基づくジョブスケジューリングのためのGANによるデータ拡張2022
- Author(s)
  石井翔, 髙橋慧智, 下村陽一, 滝沢寛之
- Organizer
  第185回HPC研究会
- Related Report
  2022 Research-status Report
[Presentation] 緊急ジョブの優先実行を考慮したジョブスケジューリングに関する一検討2022
- Author(s)
  中井大貴, 大村竜義, 髙橋慧智, 下村陽一, 滝沢寛之
- Organizer
  第187回HPC研究会
- Related Report
  2022 Research-status Report
[Presentation] ジョブスケジューリングのデジタルツイン化と自動チューニング2022
- Author(s)
  滝沢寛之
- Organizer
  第14回自動チューニング技術の現状と応用に関するシンポジウム(ATTA2022)
- Related Report
  2022 Research-status Report

Digital twin of a supercomputer for operation monitoring and automation

Principal Investigator

滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)

¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)

Current Status of Research Progress

Reason

Report

Research Products

[Int'l Joint Research] University of Edinburgh(英国)

Related Report

[Int'l Joint Research] Universitas Gadjah Mada(インドネシア)

Related Report

[Journal Article] 探索と活用の調整による並列ベイズ最適化の効率化2023

Author(s)

Journal Title

Related Report

[Journal Article] Balancing exploitation and exploration in parallel Bayesian optimization under computing resource constraint2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Efficient Pause Location Prediction Using Quantum Annealing Simulations and Machine Learning2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Conflict-aware workload co-execution on SX-aurora TSUBASA2023

Author(s)

Journal Title

DOI

Related Report

[Journal Article] ベクトル型スーパーコンピュータ「AOBA-S」の性能評価2023

Author(s)

Journal Title

Related Report

[Journal Article] Performance Evaluation of a Next-Generation SX-Aurora TSUBASA Vector Supercomputer2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Equivalence Checking of Code Transformation by Numerical and Symbolic Approaches2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] Towards Priority-Flexible Task Mapping for Heterogeneous Multi-core NUMA Systems2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] A Task-Parallel Runtime for Heterogeneous Multi-node Vector Systems2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] An Advantage Actor-Critic Deep Reinforcement Learning Method for Power Management in HPC Systems2023

Author(s)

Journal Title

DOI

ISBN

Related Report

[Journal Article] A Real-time Flood Inundation Prediction on SX-Aurora TSUBASA2022

Author(s)

Journal Title

DOI

Related Report

[Presentation] スパコンAOBAの運用開始と将来展望2024

Author(s)

Organizer

Related Report

[Presentation] Tohoku University’s new supercomputer with the third-generationSX-Aurora TSUBASA vector engines2023

Author(s)

Organizer

Related Report

[Presentation] アクセラレータ多様化に向けた取り組み～ スパコンAOBAを題材に ～2023

Author(s)

滝沢寛之東北大学, サイバーサイエンスセンター, 教授 (70323996)

[Presentation] アクセラレータ多様化に向けた取り組み～スパコンAOBAを題材に～2023