2020 年度実績報告書

機械学習を用いた自律型スマートHPCデータセンター

研究課題

研究課題/領域番号	19H04121
研究機関	東京大学
研究代表者	松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)
研究分担者	高野了成国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516) 野村哲弘東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602) 三浦信一国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974) 遠藤敏夫東京工業大学, 学術国際情報センター, 教授 (80396788) 滝澤真一朗国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	深層学習 / 強化学習 / スケジューラ / オーバーコミット / ログ収集
研究実績の概要	ジョブスケジューリングに関する研究では、ABCIで実行された深層学習計算の実行傾向の分析を行い、実行時間・実行時間要求値の正さ・並列度・GPU資源の利用率等の傾向を把握し、ジョブスケジューリングにおける課題を明らかにした。そこで得られた知見をもとに、強化学習によるジョブスケジューリングを実現するため、スケジュール問題を強化学習の問題として解くための状態、行動、報酬の設計を行い、小規模な実験が可能なシステムの開発を実施した。オーバーコミットスケジューリングに関する研究では、複数のアプリケーションがCPUコアなどの計算資源を共有する際の影響を詳細に調査した。各アプリケーションへの性能の影響は単純なものではなく、それぞれのキャッシュ利用効率やメモリ負荷などにより影響は変動することを確認した。その影響の指標化を行い、各アプリケーションのパフォーマンスカウンタ情報などから性能劣化を推測するモデルを構築、推測精度を評価した。スーパーコンピュータにおけるジョブ履歴およびセンサー情報の収集基盤については、各スパコンセンターが個別に収集しているログ情報を一元的に処理できるよう、標準ジョブ履歴スキーマを定義し、共通の中間形式を経由することで学習プログラム等の開発を集約化することとした。各センターにおけるログ収集項目を整理し、データセンター自律化のために必要なログ項目、現実的に収集できるログ項目を整理し、標準ジョブ履歴スキーマを提案した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由ジョブスケジューリングに関する研究では、ABCIにおけるジョブ実行実績情報の収集、計算ノードの各種センサーデータの収集を行い、それらを分析することで、大規模計算機システムでの深層学習計算の実行傾向の把握を行った。それと並行して、そのジョブデータを入力として処理できるシミュレータと、そのシミュレータを用いてスケジューリングアルゴリズムを学習する強化学習システムの開発を進めた。小規模なサンプルワークロードでの学習実験を開始した。オーバーコミットスケジューラに関しては、研究分担者の遠藤・野村が中心となり運用を行うTSUBAME3スパコンにて、インタラクティブジョブ用キューの本格運用を今年度に開始し、これにより各ユーザが待たされることなく計算資源を利用可能となった。一方、複数ユーザのアプリケーションが同一のCPUコア集合を用いるため、性能低下が起こりうる。このような影響を詳細に調査し、次世代のスケジューリング方式を探索するため、まずNAS Parallel Benchmarkの複数種プログラムなどを対象として、オーバーコミット時の性能の詳細調査を行った。その結果、N個のアプリケーションがコアを共有する際に速度が1/Nになるような単純な影響ではなく、メモリ負荷やキャッシュ利用効率、スレッド間同期手法などによって大きく変動すると分かった。その影響を、単独アプリケーションのパフォーマンスカウンタ値などから定量的に推測するモデルを構築し、その精度を評価した。また評価内容を充実させ、国際会議へ論文投稿を行った。情報収集基盤については各研究分担者が運用しているスーパーコンピュータにおけるログ収集状況をまとめ、その中の共通部分を抽出し、標準ジョブ履歴スキーマを定義した。各センターの違いにより生じるオプション項目や今後のシステム変化による項目追加を見越した構造化データを定義しスキーマ案を公表した。
今後の研究の推進方策	ジョブスケジューリングに関する研究では、成果創出までの課題として、アルゴリズム選定、パラメータ選定が残っている。パラメータ選定については、実行するワークロードごとに選定する必要があることを観測しており、学習トラッキングシステムやハイパーパラメータ探索手法、並列学習等を駆使して実験を加速することを計画している。オーバーコミットスケジューラについては、2020年度は少数のアプリケーションのオーバーコミット時の性能影響に注目したが、オーバーコミットの優位性を明らかにするために、今後はシステム全体のスループットや各ジョブへの実時間性・実行時間への影響を評価する必要がある。そのために、オーバーコミットを考慮したスケジューリングシミュレータを開発し評価に用いる予定である。情報収集基盤については本年度は標準ジョブ履歴スキーマの提案を行ったが、実際の計算機のログ情報を本スキーマで表現する際に起こる問題点や、実際に機械学習の入力データとしての可用性については未知数である。今後は計算機のログデータを本スキーマにおけるデータに実際に変換し、その過程で起こる問題点を抽出し、標準スキーマの改訂および本スキーマを用いるワークフローの改善を行う予定である。

研究成果
(7件)

すべて 2021 2020

すべて学会発表 (7件) (うち国際学会 2件)

[学会発表] センサー情報を意識したジョブスケジューリング実現のための標準ジョブ履歴スキーマの提案2021
- 著者名/発表者名
  野村哲弘, 滝澤真一朗, 三浦信一, 遠藤敏夫, 松葉浩也
- 学会等名
  第178回ハイパフォーマンスコンピューティング研究会
[学会発表] Performance Modeling of HPC Applications on Overcommitted Systems2021
- 著者名/発表者名
  Shohei Minami, Toshio Endo, Akihiro Nomura
- 学会等名
  HPC Asia 2021, poster session
- 国際学会
[学会発表] ABCI上でのジョブ実行履歴の分析による深層学習計算の傾向把握2020
- 著者名/発表者名
  滝澤真一朗, 坂部昌久, 谷村勇輔, 小川宏高
- 学会等名
  第176回ハイパフォーマンスコンピューティング研究会
[学会発表] 学内インフラとしてのスパコンの対話的利用による利便性向上2020
- 著者名/発表者名
  安良岡由規，野村哲弘，遠藤敏夫
- 学会等名
  大学ICT推進協議会(AXIES)年次大会， FA2-3
[学会発表] TSUBAME3のインタラクティブ利用の利便性向上にむけた取り組み2020
- 著者名/発表者名
  野村哲弘, 遠藤敏夫, 三浦信一, 朝倉博紀, 越野俊充, 草間俊博
- 学会等名
  第175回ハイパフォーマンスコンピューティング研究会
[学会発表] オーバーコミットスケジュール時のアプリ性能の予備評価2020
- 著者名/発表者名
  南将平, 遠藤敏夫, 野村哲弘
- 学会等名
  第175回ハイパフォーマンスコンピューティング研究会
[学会発表] Improving User-friendliness of Interactive Use in TSUBAME3 Supercomputer2020
- 著者名/発表者名
  Akihiro Nomura
- 学会等名
  人工知能CREST合同オンラインワークショップ(ポスター発表)
- 国際学会

2020 年度 実績報告書

機械学習を用いた自律型スマートHPCデータセンター

研究代表者

松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)

現在までの達成度 (区分)

理由

研究成果

[学会発表] センサー情報を意識したジョブスケジューリング実現のための標準ジョブ履歴スキーマの提案2021

著者名/発表者名

学会等名

[学会発表] Performance Modeling of HPC Applications on Overcommitted Systems2021

著者名/発表者名

学会等名

[学会発表] ABCI上でのジョブ実行履歴の分析による深層学習計算の傾向把握2020

著者名/発表者名

学会等名

[学会発表] 学内インフラとしてのスパコンの対話的利用による利便性向上2020

著者名/発表者名

学会等名

[学会発表] TSUBAME3のインタラクティブ利用の利便性向上にむけた取り組み2020

著者名/発表者名

学会等名

[学会発表] オーバーコミットスケジュール時のアプリ性能の予備評価2020

著者名/発表者名

学会等名

[学会発表] Improving User-friendliness of Interactive Use in TSUBAME3 Supercomputer2020

著者名/発表者名

学会等名

2020 年度実績報告書

松葉浩也東京大学, 情報基盤センター, 客員研究員 (30444095)