Digital twin of a supercomputer for operation monitoring and automation
Project/Area Number |
22K19764
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 60:Information science, computer engineering, and related fields
|
Research Institution | Tohoku University |
Principal Investigator |
滝沢 寛之 東北大学, サイバーサイエンスセンター, 教授 (70323996)
|
Project Period (FY) |
2022-06-30 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)
Fiscal Year 2024: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Fiscal Year 2023: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2022: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | ジョブスケジューリング / 高性能計算システム / デジタルツイン |
Outline of Research at the Start |
ムーアの法則の終焉が近づきスーパーコンピュータの性能向上が鈍化しつつある現在、利用可能なスーパーコンピュータを無駄なく活用することが今まで以上に重要となる。このため、運用中のスーパーコンピュータを忠実に再現する「デジタルツイン」を構築し、自らの運用状態の把握を仮想空間内で行うことで運用を動的に自動最適化する技術の検討と開拓を目指す。本研究では運用への影響の大きいジョブスケジューリングに焦点を絞り、関連するデジタルツインを構築する。その結果に基づいて、デジタルツインで設定の自動調整の妥当性を検証し、自律制御の可能性を議論する。
|
Outline of Annual Research Achievements |
本研究では、実運用システムのジョブスケジューラを忠実に模擬するデジタルツインを開発する。ジョブスケジューリングを模擬するシミュレータはすでに多数開発されているが、デジタルツインと呼べるほどには実運用システムの挙動と一致しないことが事前の検討で分かっている。このため、令和4年度は影響が大きい要因を明確化し、実運用スーパーコンピュータにおけるジョブスケジューリングをより忠実に再現することを目標として取り組んだ。その結果として、東北大学のスーパーコンピュータAOBAで実際に行われた既知のジョブスケジューリングとできるだけ一致するジョブスケジューリングシミュレータを開発した。また、強化学習によって電力制御に関するジョブスケジューラのパラメータを自動調整する研究や、AOBAで実運用されているリアルタイム津波浸水被害推計システムを想定して、津波シミュレーションの緊急実行の効率化のためのジョブスケジューリング手法を検討した。リアルタイムシミュレーションに必要な計算資源量を予測して動的に割り当てるジョブスケジューリング手法も提案し、その有用性を示すことができた。これらはより複雑なジョブスケジューリングが求められる場合を想定した研究開発であり、ジョブスケジューラやそのシミュレータの現在の機能と限界、および将来の開発の方向性を明確化することができた。さらには、来年度以降の研究内容の予備調査として、ジョブスケジューリングに機械学習技術を導入する際に課題となる学習データ不足を、敵対的生成ネットワーク(Generative Adversarial Network, GAN)を用いたデータ拡張により解消する研究も先行して行っている。実データのみを学習データとして利用する場合と比較して、拡張データを用いることで機械学習モデルによる要求資源量予測の精度が向上することが示されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ジョブスケジューリングシミュレータの開発が進んでおり、それを用いたジョブスケジューリング手法の研究でも数多くの成果を残すことができた。また、令和5年度以降に検討を予定していたデータ拡張に関しても予備評価を行っており、本研究課題全体としておおむね順調に進展していると判断している。
|
Strategy for Future Research Activity |
引き続きジョブスケジューリングのシミュレータでより多くの機能を取り込み、実運用のジョブスケジューリングをより忠実に再現できるように拡張していく。また、機械学習技術を用いて利用者の動向などをモデル化することを目指した評価も進める。データ拡張に関しては、間接的にその効果を議論することはできるものの、直接的な効果の検証は難しいこともわかっている。このため、まずはジョブスケジューリングシミュレーションの高機能化を先行して進めることを計画している。現状では依存関係がある複数のジョブ(ワークフロー)の実行のシミュレータによる再現にも困難があり、ワークフロー管理手法そのものも重要な研究課題であり未確立である。このため、令和5年度はワークフロー管理手法やそれを忠実に再現するためのシミュレータの改良に取り組むことを予定している。
|
Report
(1 results)
Research Products
(15 results)