研究課題/領域番号 |
20K11837
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60090:高性能計算関連
|
研究機関 | 北海道大学 |
研究代表者 |
杉木 章義 北海道大学, 情報基盤センター, 准教授 (50536828)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
|
キーワード | コンテナ / スケジューリング / クラウド / 最適化 / 高性能計算 / コンテナ化技術 / マイクロサービス / クラウドコンピューティング / システムソフトウェア / 並列分散システム / Kubernetes / サービスメッシュ / オペレーティングシステム / 仮想化 / 並列分散 |
研究開始時の研究の概要 |
本研究は,Kubernetesを中心とするコンテナ管理技術に対して,大規模データ解析,機械学習・人工知能タスクを含む,高性能計算(HPC)技術を融合する研究を実施する.従来よりHPC分野とクラウド分野で類似タスクに対して異なるソフトウェアが用いられていることが指摘されていたが,両者の乖離は再び進みつつある.本研究は,Kubernetesの視点からHPC技術を再構築することで,両者の融合を試みる.
|
研究実績の概要 |
今年度は,複数計算機で構成されたクラスタ環境におけるコンテナスケジューリンングに関する研究を実施した.汎用的なアプリケーションを対象とした研究(DRF,Tetris等)は過去に十分尽くされており,近年,深層機械学習や推論等の特定のアプリケーションに着目した研究(Gandiva,Tiresias,Themis,Pollux等)が実施され始めている.機械学習は近年再び大きく注目を集めており,その観点からも実施する意義がある.本研究では,まず手始めに深層機械学習の学習と推論のうち,より問題が簡単な推論ワークロードを対象とした研究から着手することにした.本研究では,NVIDIAの最新世代のGPUが有するハードウェアによるGPUの静的分割機能,マルチインスタンスGPU(MIG)を活用した研究を実施した.近年のGPUは非常に高い性能を有しており,単一のワークロードではGPUの性能を使い切れず,利用率が低下することも生じている.MIGはその要求に対応して,複数の利用者やワークロードにGPUを分割提供する機能であるが,分割の仕方にハードウェア上の大きな制約がある.組合せ最適化問題としては,その制約は好ましくない状況であり,GPUのMIGに対応したクラスタ環境における推論ワークロードの最適化手法を提案した.
また,9大学及び2研究所が共同運用するデータ活用社会創成プラットフォームmdxとも連携し,上記の応用環境としてのコンテナ基盤の整備や研究環境としての実用上の問題点の洗い出しも進めている.具体的には,スパコンに近いハードウェア特性を活かした高性能Kubernetes環境を自動展開するk8s-configsの整備を継続的に進めている.現在,基本的な基盤環境としての整備はほぼ完了しており,JupyterHubやPostgreSQLといったよりアプリケーションに近い部分の自動展開を進めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究は着々と進展しているが,ここ数年のコロナ禍の影響により対外成果化の作業が遅れている.特に,学生の大学への入構が大きく制限された時期があることから,学生との協力により進めていた部分の作業が遅れている.2023年3月に国内全国大会での発表にようやく繋げることができたが,より一層の成果を獲得するためには,もう少し作業と時間が必要である.ただ,協力して進めていた当該学生は学生は本年度で修了しており,今後工夫して進める.
|
今後の研究の推進方策 |
今後は,対外成果化を中心に研究を進める.本年度は汎用的な複数計算機のクラスタを対象としたスケジューリングよりも,特定のアプリケーションに特化したスケジューリングに注目して研究を進めた.具体的には,機械学習の推論ワークロードを対象としたが,推論では学習済みのモデルとサーバ,入力としてのワークロードがあり,スループットも複数のサーバの合計となり加算的で,ある程度性能が予測可能であることから,問題設定としてはやや単純であった.今後は,先行研究も参考に学習側のワークロードを対象として研究を進める.学習では,マルチGPU・マルチノードでの学習が行われており,複数での学習は通信の近接性からも大きな影響を受ける.問題は大幅に難しくなるが,研究を進める.具体的には,マルチGPU・マルチノードにおける学習を対象とした先行研究にGandiva,Tiresias,Themis,Pollux等があるが,いずれの研究もMIGは最近になってGPUに搭載されたため考慮していない.また,各々の先行研究で根拠とする最適化手法が異なるが,最終的な問題の定式化に応じて根拠とする最適化手法を慎重に選択する.今年度の推論問題では線形ソルバを使用したが,学習の場合には最適化の計算量が大幅に増加することから,遺伝的アルゴリズム等のヒューリステック手法を採用する.本来であれば,この学習の問題から取り組む計画であったが,練習課題として取り組んだ推論問題で今年度は時間切れとなった.
また,汎用的なクラスタスケジューリングよりも,より深いOS階層の特性を活用した方がよい可能性から,LinuxカーネルのeBPFの調査を集中的に進めている.具体的には,機械学習の学習や推論の大部分の計算はGPU上で行われることが多いが,その前段階となるストレージからのI/OやCPU上での前処理も課題であることが指摘されており,調査を進める.
|