Autonomous HPC data center using machine learning
Project/Area Number |
19H04121
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Matsuba Hiroya 東京大学, 情報基盤センター, 客員研究員 (30444095)
|
Co-Investigator(Kenkyū-buntansha) |
高野 了成 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘 東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一 国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫 東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2021: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
Fiscal Year 2020: ¥5,460,000 (Direct Cost: ¥4,200,000、Indirect Cost: ¥1,260,000)
Fiscal Year 2019: ¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)
|
Keywords | データセンター / 運用 / 人工知能 / スケジューラ / ログ収集 / 強化学習 / ジョブスケジューリング / 最適化 / オーバーコミット / システムモデル / スーパーコンピュータ / 深層学習 / AI / 計算機運用 / 機械学習 / センサーデータ / スケジューリング / サイバーフィジカルシステム |
Outline of Research at the Start |
本研究は、データセンターの運用を最適化する人工知能の開発を目指す。そのために、実運用されているスーパーコンピュータから得られる運用ログの解析と、データセンター全体のシミュレーションにより、データセンター全体の電力消費の状況を実際に試すことなくコンピュータの中の仮想空間で再現できる技術を確立する。この仮想空間で人工知能に運用方法を試行錯誤し学習させることで、この人工知能が運用について的確な判断を下せるようにすることを目指す。
|
Outline of Final Research Achievements |
To automate data center operations, we studied methods of acquiring data from data centers and reproducing them on a virtual space, as well as methods of optimizing operational policies on that virtual space. For the former, data acquisition, we succeeded in defining a general data format and storage format that can collect general-purpose data from many data centers useful for various operations without depending on differences in data format by device or data usage. For the latter operational optimization, we succeeded in optimizing job scheduling using reinforcement learning, which automatically learns control methods, and implemented a scheduling and cooling equipment simulator as a place for such learning.
|
Academic Significance and Societal Importance of the Research Achievements |
データセンターの運用はより少ない資源で多くの計算需要を満たすための高度な技術であり、スケジューリングポリシーの設定、計算機のメンテナンス、さらには電力空調設備の運用やメンテナンスを含む専門的に高度な業務である。近年の労働人口減少に伴い、このような運用業務に携わる人材の確保は容易でなく、今後、益々増大する計算需要を安定的に満たすためには運用の省力化、少人化は必須の課題である。本研究の成果はこの要請に応じるものであり、設備運用やジョブスケジューリングをシミュレーションで再現する方法、さらにそれを用いて人工知能に最適な運用を試行錯誤させる方法を開発したものである。
|
Report
(4 results)
Research Products
(18 results)