2021 Fiscal Year Final Research Report
Autonomous HPC data center using machine learning
Project/Area Number |
19H04121
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Matsuba Hiroya 東京大学, 情報基盤センター, 客員研究員 (30444095)
|
Co-Investigator(Kenkyū-buntansha) |
高野 了成 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘 東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一 国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫 東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | データセンター / 運用 / 人工知能 / スケジューラ / ログ収集 / 強化学習 |
Outline of Final Research Achievements |
To automate data center operations, we studied methods of acquiring data from data centers and reproducing them on a virtual space, as well as methods of optimizing operational policies on that virtual space. For the former, data acquisition, we succeeded in defining a general data format and storage format that can collect general-purpose data from many data centers useful for various operations without depending on differences in data format by device or data usage. For the latter operational optimization, we succeeded in optimizing job scheduling using reinforcement learning, which automatically learns control methods, and implemented a scheduling and cooling equipment simulator as a place for such learning.
|
Free Research Field |
計算機科学
|
Academic Significance and Societal Importance of the Research Achievements |
データセンターの運用はより少ない資源で多くの計算需要を満たすための高度な技術であり、スケジューリングポリシーの設定、計算機のメンテナンス、さらには電力空調設備の運用やメンテナンスを含む専門的に高度な業務である。近年の労働人口減少に伴い、このような運用業務に携わる人材の確保は容易でなく、今後、益々増大する計算需要を安定的に満たすためには運用の省力化、少人化は必須の課題である。本研究の成果はこの要請に応じるものであり、設備運用やジョブスケジューリングをシミュレーションで再現する方法、さらにそれを用いて人工知能に最適な運用を試行錯誤させる方法を開発したものである。
|