2022 Fiscal Year Research-status Report
高性能計算技術とマイクロサービス化技術の融合に関する研究
Project/Area Number |
20K11837
|
Research Institution | Hokkaido University |
Principal Investigator |
杉木 章義 北海道大学, 情報基盤センター, 准教授 (50536828)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | コンテナ / スケジューリング / クラウド / 最適化 / 高性能計算 |
Outline of Annual Research Achievements |
今年度は,複数計算機で構成されたクラスタ環境におけるコンテナスケジューリンングに関する研究を実施した.汎用的なアプリケーションを対象とした研究(DRF,Tetris等)は過去に十分尽くされており,近年,深層機械学習や推論等の特定のアプリケーションに着目した研究(Gandiva,Tiresias,Themis,Pollux等)が実施され始めている.機械学習は近年再び大きく注目を集めており,その観点からも実施する意義がある.本研究では,まず手始めに深層機械学習の学習と推論のうち,より問題が簡単な推論ワークロードを対象とした研究から着手することにした.本研究では,NVIDIAの最新世代のGPUが有するハードウェアによるGPUの静的分割機能,マルチインスタンスGPU(MIG)を活用した研究を実施した.近年のGPUは非常に高い性能を有しており,単一のワークロードではGPUの性能を使い切れず,利用率が低下することも生じている.MIGはその要求に対応して,複数の利用者やワークロードにGPUを分割提供する機能であるが,分割の仕方にハードウェア上の大きな制約がある.組合せ最適化問題としては,その制約は好ましくない状況であり,GPUのMIGに対応したクラスタ環境における推論ワークロードの最適化手法を提案した.
また,9大学及び2研究所が共同運用するデータ活用社会創成プラットフォームmdxとも連携し,上記の応用環境としてのコンテナ基盤の整備や研究環境としての実用上の問題点の洗い出しも進めている.具体的には,スパコンに近いハードウェア特性を活かした高性能Kubernetes環境を自動展開するk8s-configsの整備を継続的に進めている.現在,基本的な基盤環境としての整備はほぼ完了しており,JupyterHubやPostgreSQLといったよりアプリケーションに近い部分の自動展開を進めている.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究は着々と進展しているが,ここ数年のコロナ禍の影響により対外成果化の作業が遅れている.特に,学生の大学への入構が大きく制限された時期があることから,学生との協力により進めていた部分の作業が遅れている.2023年3月に国内全国大会での発表にようやく繋げることができたが,より一層の成果を獲得するためには,もう少し作業と時間が必要である.ただ,協力して進めていた当該学生は学生は本年度で修了しており,今後工夫して進める.
|
Strategy for Future Research Activity |
今後は,対外成果化を中心に研究を進める.本年度は汎用的な複数計算機のクラスタを対象としたスケジューリングよりも,特定のアプリケーションに特化したスケジューリングに注目して研究を進めた.具体的には,機械学習の推論ワークロードを対象としたが,推論では学習済みのモデルとサーバ,入力としてのワークロードがあり,スループットも複数のサーバの合計となり加算的で,ある程度性能が予測可能であることから,問題設定としてはやや単純であった.今後は,先行研究も参考に学習側のワークロードを対象として研究を進める.学習では,マルチGPU・マルチノードでの学習が行われており,複数での学習は通信の近接性からも大きな影響を受ける.問題は大幅に難しくなるが,研究を進める.具体的には,マルチGPU・マルチノードにおける学習を対象とした先行研究にGandiva,Tiresias,Themis,Pollux等があるが,いずれの研究もMIGは最近になってGPUに搭載されたため考慮していない.また,各々の先行研究で根拠とする最適化手法が異なるが,最終的な問題の定式化に応じて根拠とする最適化手法を慎重に選択する.今年度の推論問題では線形ソルバを使用したが,学習の場合には最適化の計算量が大幅に増加することから,遺伝的アルゴリズム等のヒューリステック手法を採用する.本来であれば,この学習の問題から取り組む計画であったが,練習課題として取り組んだ推論問題で今年度は時間切れとなった.
また,汎用的なクラスタスケジューリングよりも,より深いOS階層の特性を活用した方がよい可能性から,LinuxカーネルのeBPFの調査を集中的に進めている.具体的には,機械学習の学習や推論の大部分の計算はGPU上で行われることが多いが,その前段階となるストレージからのI/OやCPU上での前処理も課題であることが指摘されており,調査を進める.
|
Causes of Carryover |
翌年への1年間の延長を検討したことから,対外成果化のための費用(旅費,学会参加費,論文掲載料,添削費用等)及びパブリッククラウドやmdx等での大規模実験に係る計算機使用料の費用を積み残すこととした.対外成果化のための費用に関しては,国内外及び会議・雑誌等を含めて2-3件程度の論文発表を見込んでおり,そのための費用に充てる使用計画である.また,計算機使用に関しては,主要なクラウドベンダであるAWS,Azure,GCP,OCPのいずれかを実験内容に応じて最適なものを使用する計画であり,評価で高性能なGPUを長時間使用した場合には大きな支出が見込まれる.また,mdxに関しては,今年度まで試験運用期間であったため,それにかかる費用が大幅に低減出来ていたが,次年度以降は有償利用が開始される予定である.mdxもパブリッククラウドと同様に資源量と計算時間に応じた計算ポイント消費となることから,その費用に充てる計画である.
|