• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

機械学習を用いた自律型スマートHPCデータセンター

研究課題

研究課題/領域番号 19H04121
研究機関東京大学

研究代表者

松葉 浩也  東京大学, 情報基盤センター, 客員研究員 (30444095)

研究分担者 高野 了成  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘  東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一  国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫  東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗  国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
研究期間 (年度) 2019-04-01 – 2022-03-31
キーワードジョブスケジューリング / 最適化 / 強化学習 / オーバーコミット / システムモデル / ログ収集
研究実績の概要

ジョブスケジューリングに関する研究では、システム利用率最適化を目的としたスケジューリング戦略を学習する機械学習システムを構築した。ジョブの実際の実行時間と、利用者による要求実行時間の誤差を考慮したスケジューリングを行う点に新規性がある。従来の強化学習を用いた手法よりもワークロードの特性に合わせたスケジューリングが行えることを期待したが平均的な利用率の向上は1%程度に留まる結果となった。本研究で得られた成果を社会実装に発展させるため、民間企業との共同研究を新たに開始した。
オーバーコミットスケジューリングに関する研究では、前年度に投稿した論文が国際ワークショップJSSPP2021に採択され、研究発表を行った。また並行して、オーバーコミットスケジューリングの評価の基盤として、オーバコミットに対応するジョブスケジューラのシミュレータを開発した。このシミュレータは各ジョブ間に設定された、オーバコミット時の性能低下率を考慮する。評価には、Parallel workload archiveで公開されているジョブ群の履歴を用い、一部は10万以上のジョブを含む。シミュレーションの結果により、古典的なスケジューリングに比較して各ジョブの待機時間やslow down指標を大幅に改良することができた。また、全体システムスループットにもほぼ悪影響を与えない。以上の研究成果についての論文を国際会議に投稿した。
スーパーコンピュータにおけるジョブ履歴およびセンサー情報の収集基盤については、東工大のTSUBAME3.0を対象に昨年度に策定した標準ジョブ履歴スキーマによるジョブ履歴情報の表現プログラムを作成した。さらにTSUBAME3の冷却システムをModelicaを用いてモデル化し、シミュレーションにて疑似データを作成する方法を試作した。

現在までの達成度 (段落)

令和3年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和3年度が最終年度であるため、記入しない。

  • 研究成果

    (4件)

すべて 2021

すべて 学会発表 (4件) (うち国際学会 1件)

  • [学会発表] ABCI 2.0: Advances in Open AI Computing Infrastructure at AIST2021

    • 著者名/発表者名
      Shinichiro Takizawa, Yusuke Tanimura, Hidemoto Nakada, Ryousei Takano, Hirotaka Ogawa
    • 学会等名
      IPSJ SIG Technical Reports HPC-180
  • [学会発表] ABCI 2.0: opportunities and challenges of an open research platform for AI/ML2021

    • 著者名/発表者名
      Ryousei Takano
    • 学会等名
      The 2nd International Workshop on Machine Learning Hardware in conjunction with ISC 2021
  • [学会発表] 深層強化学習を用いたジョブスケジューリングへの不確実なジョブ属性の影響の検証2021

    • 著者名/発表者名
      滝澤真一朗, 野村哲弘, 松葉浩也
    • 学会等名
      第182回ハイパフォーマンスコンピューティング研究会
  • [学会発表] Measurement and Modeling of Performance of HPC Applications towards Overcommitting Scheduling Systems2021

    • 著者名/発表者名
      Shohei Minami, Toshio Endo and Akihiro Nomura
    • 学会等名
      24th Workshop on Job Scheduling Strategies for Parallel Processing
    • 国際学会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi