2019 Fiscal Year Annual Research Report

機械学習を用いた自律型スマートHPCデータセンター

Research Project

Project/Area Number	19H04121
Research Institution	The University of Tokyo
Principal Investigator	松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)
Co-Investigator(Kenkyū-buntansha)	高野了成国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究グループ長 (10509516) 野村哲弘東京工業大学, 学術国際情報センター, 助教 (30616602) 三浦信一東京工業大学, 学術国際情報センター, 特任助教 (50509974) 遠藤敏夫東京工業大学, 学術国際情報センター, 教授 (80396788) 滝澤真一朗国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
Project Period (FY)	2019-04-01 – 2022-03-31
Keywords	強化学習 / ジョブスケジューリング / データセンター
Outline of Annual Research Achievements	今年度はHPCデータセンターの自律運用のために必要な項目の洗い出しと必要となる要素技術について研究を進めた。まず、自律運用を目指すために、人間の管理下にある運用において日常的に制御を行っている項目について実態調査を進めた。その結果、大規模HPCデータセンターにおいて共通的な制御項目はジョブのスケジューリングおよび冷却設備の稼働パラメータであることが判明した。これら二項目は相互依存しており、例えば消費電力が大きくなることが見込まれる大規模ジョブが存在する場合、ジョブスケジューラによる自動実行は一旦停止した上で冷却設備を最大能力で稼働できる準備を進め、冷却設備の準備が整ったところでジョブの実行を開始する。このような設備とジョブスケジューリングの連携運用を自動化し、同時にHPCデータセンターとして当然の要求である計算機利用率を最大化を達成するため、本研究課題では現在注目のAI技術のひとつである強化学習を用いることとした。強化学習を選択した理由はその柔軟性にある。HPCデータセンターの運用はジョブの開始、終了により冷却設備への負荷が矩形波的に変化するなど非線形な動作が多々あり、数学的な最適化が困難な問題であるが、強化学習は計算機の運用状態をシミュレータとして再現することができれば、その中での適切な運用を学習により習得できる可能性がある。今年度は上記の分析に基づいて、本研究課題で目指す「自律運用」を強化学習の問題として定義し、最初のステップとしてその簡略化問題を解くことを進めた。具体的には設備の負荷は一旦考慮から外し、与えられたジョブ列と計算機環境において適切なジョブのスケジューリングを強化学習により習得することを試みた。本予備実験は概ね良好な結果となっており、来年度、本実験を基に設備なども考慮した本格的な自律運用AIを開発する。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は研究1年目であり、HPCデータセンターの自律運用のために制御が必要な項目を洗い出し、制御を自動化する方針を決定した。制御が必要な項目はジョブスケジューリングと設備運用であり、それらの自動化のためには柔軟性の高い強化学習を用いることとした。これらは本課題の計画時に想定していた通りであり、大きな方針変更は不要であった。そのため本課題は全体的には順調に進捗している。ジョブスケジューリングに関しては、問題をやや単純化したものの、学習に必要な環境の整備、報酬設計などを完了して概ね良好な予備実験結果を得ることに成功した。1年目としては十分な進捗と考えており、本項目については想定以上の進捗である。一方、設備運用の自動化に関しては、想定よりも既存のデータセンターでの自動化が進んでおり、制御の高度化の余地が少なかったため、若干の方針変更が必要となっている。しかし、HPCデータセンターの運用自動化という最終目標に向けての本質的な問題ではなく、全体的な進捗に影響はない。
Strategy for Future Research Activity	ジョブスケジューリングについては、今年度考慮から外した設備の状況を含めて最適化するAIの開発を進める。具体的にはスケジューリングしたジョブの消費電力を予測する既存研究の成果を活用し、実際に実行した際に計算機の消費電力が設備の供給能力を超えないことを制約条件として最適化するよう問題設定を変更する。設備運用については冷却能力不足、あるいは冷却能力過剰が発生する状況を再現するシミュレータを作成し、強化学習に用いる学習環境に加える。これにより、冷却設備の能力調整もアクションスペースに含めて強化学習を行うことができるようになり、自律運用の最終形に向けて研究が前進する。

Research Products
(7 results)

All 2020 2019

All Presentation (7 results) (of which Int'l Joint Research: 5 results, Invited: 1 results)

[Presentation] Effect of an Incentive Implementation for Specifying Accurate Walltime in Job Scheduling2020
- Author(s)
  Shinichiro Takizawa, Ryousei Takano
- Organizer
  International Conference on High Performance Computing in Asia-Pacific Region
- Int'l Joint Research
[Presentation] Activity Report from Tokyo Tech:Energy Efficiency of TSUBAME3.02019
- Author(s)
  Toshio Endo
- Organizer
  Energy Efficient HPC State of the Practice Kobe Meeting
- Int'l Joint Research
[Presentation] Introducing Container Technology to TSUBAME3.0 Supercomputer2019
- Author(s)
  Akihiro Nomura
- Organizer
  ISC High Performance 2019
- Int'l Joint Research / Invited
[Presentation] TSUBAME3.0におけるストレージ利用効率化のためのファイルシステムベンチマーク2019
- Author(s)
  野村哲弘, 三浦信一, 實本英之, 額田彰, 遠藤敏夫
- Organizer
  情報処理学会研究報告, 2019-HPC-170 No.24
[Presentation] ABCIデータセンターにおけるハードウェア障害の傾向2019
- Author(s)
  高野了成, 滝澤真一朗, 三浦信一, 谷村勇輔, 小川宏高
- Organizer
  コンピュータシステムシンポジウム2019
[Presentation] Activity Report from AIST ~1st anniversary of ABCI~2019
- Author(s)
  Ryousei Takano
- Organizer
  Energy Efficient HPC State of the Practice Kobe Meeting
- Int'l Joint Research
[Presentation] ABCI and the Energy Efficient Datacenter Operation2019
- Author(s)
  Ryousei Takano
- Organizer
  Energy Efficiency Considerations for HPC Procurements BoF (SC19)
- Int'l Joint Research

2019 Fiscal Year Annual Research Report

機械学習を用いた自律型スマートHPCデータセンター

Principal Investigator

松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)

Current Status of Research Progress

Reason

Research Products

[Presentation] Effect of an Incentive Implementation for Specifying Accurate Walltime in Job Scheduling2020

Author(s)

Organizer

[Presentation] Activity Report from Tokyo Tech:Energy Efficiency of TSUBAME3.02019

Author(s)

Organizer

[Presentation] Introducing Container Technology to TSUBAME3.0 Supercomputer2019

Author(s)

Organizer

[Presentation] TSUBAME3.0におけるストレージ利用効率化のためのファイルシステムベンチマーク2019

Author(s)

Organizer

[Presentation] ABCIデータセンターにおけるハードウェア障害の傾向2019

Author(s)

Organizer

[Presentation] Activity Report from AIST ~1st anniversary of ABCI~2019

Author(s)

Organizer

[Presentation] ABCI and the Energy Efficient Datacenter Operation2019

Author(s)

Organizer

松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)