2019 Fiscal Year Annual Research Report
機械学習を用いた自律型スマートHPCデータセンター
Project/Area Number |
19H04121
|
Research Institution | The University of Tokyo |
Principal Investigator |
松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)
|
Co-Investigator(Kenkyū-buntansha) |
高野 了成 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究グループ長 (10509516)
野村 哲弘 東京工業大学, 学術国際情報センター, 助教 (30616602)
三浦 信一 東京工業大学, 学術国際情報センター, 特任助教 (50509974)
遠藤 敏夫 東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 強化学習 / ジョブスケジューリング / データセンター |
Outline of Annual Research Achievements |
今年度はHPCデータセンターの自律運用のために必要な項目の洗い出しと必要となる要素技術について研究を進めた。まず、自律運用を目指すために、人間の管理下にある運用において日常的に制御を行っている項目について実態調査を進めた。その結果、大規模HPCデータセンターにおいて共通的な制御項目はジョブのスケジューリングおよび冷却設備の稼働パラメータであることが判明した。これら二項目は相互依存しており、例えば消費電力が大きくなることが見込まれる大規模ジョブが存在する場合、ジョブスケジューラによる自動実行は一旦停止した上で冷却設備を最大能力で稼働できる準備を進め、冷却設備の準備が整ったところでジョブの実行を開始する。 このような設備とジョブスケジューリングの連携運用を自動化し、同時にHPCデータセンターとして当然の要求である計算機利用率を最大化を達成するため、本研究課題では現在注目のAI技術のひとつである強化学習を用いることとした。強化学習を選択した理由はその柔軟性にある。HPCデータセンターの運用はジョブの開始、終了により冷却設備への負荷が矩形波的に変化するなど非線形な動作が多々あり、数学的な最適化が困難な問題であるが、強化学習は計算機の運用状態をシミュレータとして再現することができれば、その中での適切な運用を学習により習得できる可能性がある。 今年度は上記の分析に基づいて、本研究課題で目指す「自律運用」を強化学習の問題として定義し、最初のステップとしてその簡略化問題を解くことを進めた。具体的には設備の負荷は一旦考慮から外し、与えられたジョブ列と計算機環境において適切なジョブのスケジューリングを強化学習により習得することを試みた。本予備実験は概ね良好な結果となっており、来年度、本実験を基に設備なども考慮した本格的な自律運用AIを開発する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は研究1年目であり、HPCデータセンターの自律運用のために制御が必要な項目を洗い出し、制御を自動化する方針を決定した。制御が必要な項目はジョブスケジューリングと設備運用であり、それらの自動化のためには柔軟性の高い強化学習を用いることとした。これらは本課題の計画時に想定していた通りであり、大きな方針変更は不要であった。そのため本課題は全体的には順調に進捗している。 ジョブスケジューリングに関しては、問題をやや単純化したものの、学習に必要な環境の整備、報酬設計などを完了して概ね良好な予備実験結果を得ることに成功した。1年目としては十分な進捗と考えており、本項目については想定以上の進捗である。一方、設備運用の自動化に関しては、想定よりも既存のデータセンターでの自動化が進んでおり、制御の高度化の余地が少なかったため、若干の方針変更が必要となっている。しかし、HPCデータセンターの運用自動化という最終目標に向けての本質的な問題ではなく、全体的な進捗に影響はない。
|
Strategy for Future Research Activity |
ジョブスケジューリングについては、今年度考慮から外した設備の状況を含めて最適化するAIの開発を進める。具体的にはスケジューリングしたジョブの消費電力を予測する既存研究の成果を活用し、実際に実行した際に計算機の消費電力が設備の供給能力を超えないことを制約条件として最適化するよう問題設定を変更する。 設備運用については冷却能力不足、あるいは冷却能力過剰が発生する状況を再現するシミュレータを作成し、強化学習に用いる学習環境に加える。これにより、冷却設備の能力調整もアクションスペースに含めて強化学習を行うことができるようになり、自律運用の最終形に向けて研究が前進する。
|
Research Products
(7 results)