2020 Fiscal Year Annual Research Report
機械学習を用いた自律型スマートHPCデータセンター
Project/Area Number |
19H04121
|
Research Institution | The University of Tokyo |
Principal Investigator |
松葉 浩也 東京大学, 情報基盤センター, 客員研究員 (30444095)
|
Co-Investigator(Kenkyū-buntansha) |
高野 了成 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (10509516)
野村 哲弘 東京工業大学, 学術国際情報センター, マネジメント准教授 (30616602)
三浦 信一 国立研究開発法人理化学研究所, 計算科学研究センター, 技師 (50509974)
遠藤 敏夫 東京工業大学, 学術国際情報センター, 教授 (80396788)
滝澤 真一朗 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (80550483)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / 強化学習 / スケジューラ / オーバーコミット / ログ収集 |
Outline of Annual Research Achievements |
ジョブスケジューリングに関する研究では、ABCIで実行された深層学習計算の実行傾向の分析を行い、実行時間・実行時間要求値の正さ・並列度・GPU資源の利用率等の傾向を把握し、ジョブスケジューリングにおける課題を明らかにした。そこで得られた知見をもとに、強化学習によるジョブスケジューリングを実現するため、スケジュール問題を強化学習の問題として解くための状態、行動、報酬の設計を行い、小規模な実験が可能なシステムの開発を実施した。 オーバーコミットスケジューリングに関する研究では、複数のアプリケーションがCPUコアなどの計算資源を共有する際の影響を詳細に調査した。各アプリケーションへの性能の影響は単純なものではなく、それぞれのキャッシュ利用効率やメモリ負荷などにより影響は変動することを確認した。その影響の指標化を行い、各アプリケーションのパフォーマンスカウンタ情報などから性能劣化を推測するモデルを構築、推測精度を評価した。 スーパーコンピュータにおけるジョブ履歴およびセンサー情報の収集基盤については、各スパコンセンターが個別に収集しているログ情報を一元的に処理できるよう、標準ジョブ履歴スキーマを定義し、共通の中間形式を経由することで学習プログラム等の開発を集約化することとした。各センターにおけるログ収集項目を整理し、データセンター自律化のために必要なログ項目、現実的に収集できるログ項目を整理し、標準ジョブ履歴スキーマを提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ジョブスケジューリングに関する研究では、ABCIにおけるジョブ実行実績情報の収集、計算ノードの各種センサーデータの収集を行い、それらを分析することで、大規模計算機システムでの深層学習計算の実行傾向の把握を行った。それと並行して、そのジョブデータを入力として処理できるシミュレータと、そのシミュレータを用いてスケジューリングアルゴリズムを学習する強化学習システムの開発を進めた。小規模なサンプルワークロードでの学習実験を開始した。 オーバーコミットスケジューラに関しては、研究分担者の遠藤・野村が中心となり運用を行うTSUBAME3スパコンにて、インタラクティブジョブ用キューの本格運用を今年度に開始し、これにより各ユーザが待たされることなく計算資源を利用可能となった。一方、複数ユーザのアプリケーションが同一のCPUコア集合を用いるため、性能低下が起こりうる。このような影響を詳細に調査し、次世代のスケジューリング方式を探索するため、まずNAS Parallel Benchmarkの複数種プログラムなどを対象として、オーバーコミット時の性能の詳細調査を行った。その結果、N個のアプリケーションがコアを共有する際に速度が1/Nになるような単純な影響ではなく、メモリ負荷やキャッシュ利用効率、スレッド間同期手法などによって大きく変動すると分かった。その影響を、単独アプリケーションのパフォーマンスカウンタ値などから定量的に推測するモデルを構築し、その精度を評価した。また評価内容を充実させ、国際会議へ論文投稿を行った。 情報収集基盤については各研究分担者が運用しているスーパーコンピュータにおけるログ収集状況をまとめ、その中の共通部分を抽出し、標準ジョブ履歴スキーマを定義した。各センターの違いにより生じるオプション項目や今後のシステム変化による項目追加を見越した構造化データを定義しスキーマ案を公表した。
|
Strategy for Future Research Activity |
ジョブスケジューリングに関する研究では、成果創出までの課題として、アルゴリズム選定、パラメータ選定が残っている。パラメータ選定については、実行するワークロードごとに選定する必要があることを観測しており、学習トラッキングシステムやハイパーパラメータ探索手法、並列学習等を駆使して実験を加速することを計画している。 オーバーコミットスケジューラについては、2020年度は少数のアプリケーションのオーバーコミット時の性能影響に注目したが、オーバーコミットの優位性を明らかにするために、今後はシステム全体のスループットや各ジョブへの実時間性・実行時間への影響を評価する必要がある。そのために、オーバーコミットを考慮したスケジューリングシミュレータを開発し評価に用いる予定である。 情報収集基盤については本年度は標準ジョブ履歴スキーマの提案を行ったが、実際の計算機のログ情報を本スキーマで表現する際に起こる問題点や、実際に機械学習の入力データとしての可用性については未知数である。今後は計算機のログデータを本スキーマにおけるデータに実際に変換し、その過程で起こる問題点を抽出し、標準スキーマの改訂および本スキーマを用いるワークフローの改善を行う予定である。
|
Research Products
(7 results)