2019 年度実績報告書

機械学習を用いた自律型スマートHPCデータセンター

研究課題

研究課題/領域番号	19H04121
研究機関	東京大学
研究代表者	松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)
研究分担者	高野了成国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究グループ長 (10509516) 野村哲弘東京工業大学, 学術国際情報センター, 助教 (30616602) 三浦信一東京工業大学, 学術国際情報センター, 特任助教 (50509974) 遠藤敏夫東京工業大学, 学術国際情報センター, 教授 (80396788) 滝澤真一朗国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	強化学習 / ジョブスケジューリング / データセンター
研究実績の概要	今年度はHPCデータセンターの自律運用のために必要な項目の洗い出しと必要となる要素技術について研究を進めた。まず、自律運用を目指すために、人間の管理下にある運用において日常的に制御を行っている項目について実態調査を進めた。その結果、大規模HPCデータセンターにおいて共通的な制御項目はジョブのスケジューリングおよび冷却設備の稼働パラメータであることが判明した。これら二項目は相互依存しており、例えば消費電力が大きくなることが見込まれる大規模ジョブが存在する場合、ジョブスケジューラによる自動実行は一旦停止した上で冷却設備を最大能力で稼働できる準備を進め、冷却設備の準備が整ったところでジョブの実行を開始する。このような設備とジョブスケジューリングの連携運用を自動化し、同時にHPCデータセンターとして当然の要求である計算機利用率を最大化を達成するため、本研究課題では現在注目のAI技術のひとつである強化学習を用いることとした。強化学習を選択した理由はその柔軟性にある。HPCデータセンターの運用はジョブの開始、終了により冷却設備への負荷が矩形波的に変化するなど非線形な動作が多々あり、数学的な最適化が困難な問題であるが、強化学習は計算機の運用状態をシミュレータとして再現することができれば、その中での適切な運用を学習により習得できる可能性がある。今年度は上記の分析に基づいて、本研究課題で目指す「自律運用」を強化学習の問題として定義し、最初のステップとしてその簡略化問題を解くことを進めた。具体的には設備の負荷は一旦考慮から外し、与えられたジョブ列と計算機環境において適切なジョブのスケジューリングを強化学習により習得することを試みた。本予備実験は概ね良好な結果となっており、来年度、本実験を基に設備なども考慮した本格的な自律運用AIを開発する。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由今年度は研究1年目であり、HPCデータセンターの自律運用のために制御が必要な項目を洗い出し、制御を自動化する方針を決定した。制御が必要な項目はジョブスケジューリングと設備運用であり、それらの自動化のためには柔軟性の高い強化学習を用いることとした。これらは本課題の計画時に想定していた通りであり、大きな方針変更は不要であった。そのため本課題は全体的には順調に進捗している。ジョブスケジューリングに関しては、問題をやや単純化したものの、学習に必要な環境の整備、報酬設計などを完了して概ね良好な予備実験結果を得ることに成功した。1年目としては十分な進捗と考えており、本項目については想定以上の進捗である。一方、設備運用の自動化に関しては、想定よりも既存のデータセンターでの自動化が進んでおり、制御の高度化の余地が少なかったため、若干の方針変更が必要となっている。しかし、HPCデータセンターの運用自動化という最終目標に向けての本質的な問題ではなく、全体的な進捗に影響はない。
今後の研究の推進方策	ジョブスケジューリングについては、今年度考慮から外した設備の状況を含めて最適化するAIの開発を進める。具体的にはスケジューリングしたジョブの消費電力を予測する既存研究の成果を活用し、実際に実行した際に計算機の消費電力が設備の供給能力を超えないことを制約条件として最適化するよう問題設定を変更する。設備運用については冷却能力不足、あるいは冷却能力過剰が発生する状況を再現するシミュレータを作成し、強化学習に用いる学習環境に加える。これにより、冷却設備の能力調整もアクションスペースに含めて強化学習を行うことができるようになり、自律運用の最終形に向けて研究が前進する。

研究成果
(7件)

すべて 2020 2019

すべて学会発表 (7件) (うち国際学会 5件、招待講演 1件)

[学会発表] Effect of an Incentive Implementation for Specifying Accurate Walltime in Job Scheduling2020
- 著者名/発表者名
  Shinichiro Takizawa, Ryousei Takano
- 学会等名
  International Conference on High Performance Computing in Asia-Pacific Region
- 国際学会
[学会発表] Activity Report from Tokyo Tech:Energy Efficiency of TSUBAME3.02019
- 著者名/発表者名
  Toshio Endo
- 学会等名
  Energy Efficient HPC State of the Practice Kobe Meeting
- 国際学会
[学会発表] Introducing Container Technology to TSUBAME3.0 Supercomputer2019
- 著者名/発表者名
  Akihiro Nomura
- 学会等名
  ISC High Performance 2019
- 国際学会 / 招待講演
[学会発表] TSUBAME3.0におけるストレージ利用効率化のためのファイルシステムベンチマーク2019
- 著者名/発表者名
  野村哲弘, 三浦信一, 實本英之, 額田彰, 遠藤敏夫
- 学会等名
  情報処理学会研究報告, 2019-HPC-170 No.24
[学会発表] ABCIデータセンターにおけるハードウェア障害の傾向2019
- 著者名/発表者名
  高野了成, 滝澤真一朗, 三浦信一, 谷村勇輔, 小川宏高
- 学会等名
  コンピュータシステムシンポジウム2019
[学会発表] Activity Report from AIST ~1st anniversary of ABCI~2019
- 著者名/発表者名
  Ryousei Takano
- 学会等名
  Energy Efficient HPC State of the Practice Kobe Meeting
- 国際学会
[学会発表] ABCI and the Energy Efficient Datacenter Operation2019
- 著者名/発表者名
  Ryousei Takano
- 学会等名
  Energy Efficiency Considerations for HPC Procurements BoF (SC19)
- 国際学会

2019 年度 実績報告書

機械学習を用いた自律型スマートHPCデータセンター

研究代表者

松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Effect of an Incentive Implementation for Specifying Accurate Walltime in Job Scheduling2020

著者名/発表者名

学会等名

[学会発表] Activity Report from Tokyo Tech:Energy Efficiency of TSUBAME3.02019

著者名/発表者名

学会等名

[学会発表] Introducing Container Technology to TSUBAME3.0 Supercomputer2019

著者名/発表者名

学会等名

[学会発表] TSUBAME3.0におけるストレージ利用効率化のためのファイルシステムベンチマーク2019

著者名/発表者名

学会等名

[学会発表] ABCIデータセンターにおけるハードウェア障害の傾向2019

著者名/発表者名

学会等名

[学会発表] Activity Report from AIST ~1st anniversary of ABCI~2019

著者名/発表者名

学会等名

[学会発表] ABCI and the Energy Efficient Datacenter Operation2019

著者名/発表者名

学会等名

2019 年度実績報告書

松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)