2021 Fiscal Year Annual Research Report
機械学習を用いた自律型スマートHPCデータセンター
Project/Area Number |
19H04121
|
Research Institution | The University of Tokyo |
Principal Investigator |
松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)
|
Co-Investigator(Kenkyū-buntansha) |
高野 了成 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘 東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一 国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫 東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | ジョブスケジューリング / 最適化 / 強化学習 / オーバーコミット / システムモデル / ログ収集 |
Outline of Annual Research Achievements |
ジョブスケジューリングに関する研究では、システム利用率最適化を目的としたスケジューリング戦略を学習する機械学習システムを構築した。ジョブの実際の実行時間と、利用者による要求実行時間の誤差を考慮したスケジューリングを行う点に新規性がある。従来の強化学習を用いた手法よりもワークロードの特性に合わせたスケジューリングが行えることを期待したが平均的な利用率の向上は1%程度に留まる結果となった。本研究で得られた成果を社会実装に発展させるため、民間企業との共同研究を新たに開始した。 オーバーコミットスケジューリングに関する研究では、前年度に投稿した論文が国際ワークショップJSSPP2021に採択され、研究発表を行った。また並行して、オーバーコミットスケジューリングの評価の基盤として、オーバコミットに対応するジョブスケジューラのシミュレータを開発した。このシミュレータは各ジョブ間に設定された、オーバコミット時の性能低下率を考慮する。評価には、Parallel workload archiveで公開されているジョブ群の履歴を用い、一部は10万以上のジョブを含む。シミュレーションの結果により、古典的なスケジューリングに比較して各ジョブの待機時間やslow down指標を大幅に改良することができた。また、全体システムスループットにもほぼ悪影響を与えない。以上の研究成果についての論文を国際会議に投稿した。 スーパーコンピュータにおけるジョブ履歴およびセンサー情報の収集基盤については、東工大のTSUBAME3.0を対象に昨年度に策定した標準ジョブ履歴スキーマによるジョブ履歴情報の表現プログラムを作成した。さらにTSUBAME3の冷却システムをModelicaを用いてモデル化し、シミュレーションにて疑似データを作成する方法を試作した。
|
Research Progress Status |
令和3年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和3年度が最終年度であるため、記入しない。
|
Research Products
(4 results)