• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

機械学習を用いた自律型スマートHPCデータセンター

Research Project

Project/Area Number 19H04121
Research InstitutionThe University of Tokyo

Principal Investigator

松葉 浩也  東京大学, 情報基盤センター, 客員研究員 (30444095)

Co-Investigator(Kenkyū-buntansha) 高野 了成  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘  東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一  国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫  東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
Project Period (FY) 2019-04-01 – 2022-03-31
Keywordsジョブスケジューリング / 最適化 / 強化学習 / オーバーコミット / システムモデル / ログ収集
Outline of Annual Research Achievements

ジョブスケジューリングに関する研究では、システム利用率最適化を目的としたスケジューリング戦略を学習する機械学習システムを構築した。ジョブの実際の実行時間と、利用者による要求実行時間の誤差を考慮したスケジューリングを行う点に新規性がある。従来の強化学習を用いた手法よりもワークロードの特性に合わせたスケジューリングが行えることを期待したが平均的な利用率の向上は1%程度に留まる結果となった。本研究で得られた成果を社会実装に発展させるため、民間企業との共同研究を新たに開始した。
オーバーコミットスケジューリングに関する研究では、前年度に投稿した論文が国際ワークショップJSSPP2021に採択され、研究発表を行った。また並行して、オーバーコミットスケジューリングの評価の基盤として、オーバコミットに対応するジョブスケジューラのシミュレータを開発した。このシミュレータは各ジョブ間に設定された、オーバコミット時の性能低下率を考慮する。評価には、Parallel workload archiveで公開されているジョブ群の履歴を用い、一部は10万以上のジョブを含む。シミュレーションの結果により、古典的なスケジューリングに比較して各ジョブの待機時間やslow down指標を大幅に改良することができた。また、全体システムスループットにもほぼ悪影響を与えない。以上の研究成果についての論文を国際会議に投稿した。
スーパーコンピュータにおけるジョブ履歴およびセンサー情報の収集基盤については、東工大のTSUBAME3.0を対象に昨年度に策定した標準ジョブ履歴スキーマによるジョブ履歴情報の表現プログラムを作成した。さらにTSUBAME3の冷却システムをModelicaを用いてモデル化し、シミュレーションにて疑似データを作成する方法を試作した。

Research Progress Status

令和3年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和3年度が最終年度であるため、記入しない。

  • Research Products

    (4 results)

All 2021

All Presentation (4 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] ABCI 2.0: Advances in Open AI Computing Infrastructure at AIST2021

    • Author(s)
      Shinichiro Takizawa, Yusuke Tanimura, Hidemoto Nakada, Ryousei Takano, Hirotaka Ogawa
    • Organizer
      IPSJ SIG Technical Reports HPC-180
  • [Presentation] ABCI 2.0: opportunities and challenges of an open research platform for AI/ML2021

    • Author(s)
      Ryousei Takano
    • Organizer
      The 2nd International Workshop on Machine Learning Hardware in conjunction with ISC 2021
  • [Presentation] 深層強化学習を用いたジョブスケジューリングへの不確実なジョブ属性の影響の検証2021

    • Author(s)
      滝澤真一朗, 野村哲弘, 松葉浩也
    • Organizer
      第182回ハイパフォーマンスコンピューティング研究会
  • [Presentation] Measurement and Modeling of Performance of HPC Applications towards Overcommitting Scheduling Systems2021

    • Author(s)
      Shohei Minami, Toshio Endo and Akihiro Nomura
    • Organizer
      24th Workshop on Job Scheduling Strategies for Parallel Processing
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi