高性能計算技術とマイクロサービス化技術の融合に関する研究

Research Project

Project/Area Number	20K11837
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60090:High performance computing-related
Research Institution	Hokkaido University
Principal Investigator	杉木章義北海道大学, 情報基盤センター, 准教授 (50536828)
Project Period (FY)	2020-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2022)
Budget Amount *help	¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000) Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2021: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000) Fiscal Year 2020: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Keywords	コンテナ / スケジューリング / クラウド / 最適化 / 高性能計算 / コンテナ化技術 / マイクロサービス / クラウドコンピューティング / システムソフトウェア / 並列分散システム / Kubernetes / サービスメッシュ / オペレーティングシステム / 仮想化 / 並列分散
Outline of Research at the Start	本研究は，Kubernetesを中心とするコンテナ管理技術に対して，大規模データ解析，機械学習・人工知能タスクを含む，高性能計算（HPC）技術を融合する研究を実施する．従来よりHPC分野とクラウド分野で類似タスクに対して異なるソフトウェアが用いられていることが指摘されていたが，両者の乖離は再び進みつつある．本研究は，Kubernetesの視点からHPC技術を再構築することで，両者の融合を試みる．
Outline of Annual Research Achievements	今年度は，複数計算機で構成されたクラスタ環境におけるコンテナスケジューリンングに関する研究を実施した．汎用的なアプリケーションを対象とした研究（DRF，Tetris等）は過去に十分尽くされており，近年，深層機械学習や推論等の特定のアプリケーションに着目した研究（Gandiva，Tiresias，Themis，Pollux等）が実施され始めている．機械学習は近年再び大きく注目を集めており，その観点からも実施する意義がある．本研究では，まず手始めに深層機械学習の学習と推論のうち，より問題が簡単な推論ワークロードを対象とした研究から着手することにした．本研究では，NVIDIAの最新世代のGPUが有するハードウェアによるGPUの静的分割機能，マルチインスタンスGPU（MIG）を活用した研究を実施した．近年のGPUは非常に高い性能を有しており，単一のワークロードではGPUの性能を使い切れず，利用率が低下することも生じている．MIGはその要求に対応して，複数の利用者やワークロードにGPUを分割提供する機能であるが，分割の仕方にハードウェア上の大きな制約がある．組合せ最適化問題としては，その制約は好ましくない状況であり，GPUのMIGに対応したクラスタ環境における推論ワークロードの最適化手法を提案した．また，9大学及び2研究所が共同運用するデータ活用社会創成プラットフォームmdxとも連携し，上記の応用環境としてのコンテナ基盤の整備や研究環境としての実用上の問題点の洗い出しも進めている．具体的には，スパコンに近いハードウェア特性を活かした高性能Kubernetes環境を自動展開するk8s-configsの整備を継続的に進めている．現在，基本的な基盤環境としての整備はほぼ完了しており，JupyterHubやPostgreSQLといったよりアプリケーションに近い部分の自動展開を進めている．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 研究は着々と進展しているが，ここ数年のコロナ禍の影響により対外成果化の作業が遅れている．特に，学生の大学への入構が大きく制限された時期があることから，学生との協力により進めていた部分の作業が遅れている．2023年3月に国内全国大会での発表にようやく繋げることができたが，より一層の成果を獲得するためには，もう少し作業と時間が必要である．ただ，協力して進めていた当該学生は学生は本年度で修了しており，今後工夫して進める．
Strategy for Future Research Activity	今後は，対外成果化を中心に研究を進める．本年度は汎用的な複数計算機のクラスタを対象としたスケジューリングよりも，特定のアプリケーションに特化したスケジューリングに注目して研究を進めた．具体的には，機械学習の推論ワークロードを対象としたが，推論では学習済みのモデルとサーバ，入力としてのワークロードがあり，スループットも複数のサーバの合計となり加算的で，ある程度性能が予測可能であることから，問題設定としてはやや単純であった．今後は，先行研究も参考に学習側のワークロードを対象として研究を進める．学習では，マルチGPU・マルチノードでの学習が行われており，複数での学習は通信の近接性からも大きな影響を受ける．問題は大幅に難しくなるが，研究を進める．具体的には，マルチGPU・マルチノードにおける学習を対象とした先行研究にGandiva，Tiresias，Themis，Pollux等があるが，いずれの研究もMIGは最近になってGPUに搭載されたため考慮していない．また，各々の先行研究で根拠とする最適化手法が異なるが，最終的な問題の定式化に応じて根拠とする最適化手法を慎重に選択する．今年度の推論問題では線形ソルバを使用したが，学習の場合には最適化の計算量が大幅に増加することから，遺伝的アルゴリズム等のヒューリステック手法を採用する．本来であれば，この学習の問題から取り組む計画であったが，練習課題として取り組んだ推論問題で今年度は時間切れとなった．また，汎用的なクラスタスケジューリングよりも，より深いOS階層の特性を活用した方がよい可能性から，LinuxカーネルのeBPFの調査を集中的に進めている．具体的には，機械学習の学習や推論の大部分の計算はGPU上で行われることが多いが，その前段階となるストレージからのI/OやCPU上での前処理も課題であることが指摘されており，調査を進める．

Report

(3 results)

Research Products

(9 results)

All 2023 2022 2021 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 1 results) Presentation (6 results) Remarks (1 results)

[Journal Article] Building a Software Platform towards Data Utilization Society2022
- Author(s)
  杉木章義、田浦健次朗、伊達進、建部修見、空閑洋平、竹房あつ子、藤原一毅、合田憲人、中村遼、塙敏博、鈴村豊太郎、宮本大輔
- Journal Title
  
  Journal for Academic Computing and Networking
  
  Volume: 26 Issue: 1 Pages: 1-9
- DOI
  10.24669/jacn.26.1_1
- ISSN
  1343-2915, 2433-7595
- Year and Date
  2022-12-28
- Related Report
  2022 Research-status Report
- Peer Reviewed / Open Access
[Journal Article] mdx: A Cloud Platform for Supporting Data Science and Cross-Disciplinary Research Collaborations2022
- Author(s)
  Toyotaro Suzumura, Akiyoshi Sugiki, Hiroyuki Takizawa, Akira Imakura, Hiroshi Nakamura, Kenjiro Taura, Tomohiro Kudo et al.
- Journal Title
  
  IEEE CBDCom 2022
  
  Volume: - Pages: 1-7
- DOI
  10.1109/dasc/picom/cbdcom/cy55231.2022.9927975
- Related Report
  2022 Research-status Report
- Peer Reviewed
[Presentation] マルチインスタンスGPUを用いた推論ワークロードのクラスタスケジューリング2023
- Author(s)
  三井郁央、杉木章義
- Organizer
  情報処理学会第85回全国大会
- Related Report
  2022 Research-status Report
[Presentation] データ利活用に向けた高性能Kubernetes環境構築の検討2022
- Author(s)
  杉木章義
- Organizer
  情報処理学会研究報告（2022-HPC-185）
- Related Report
  2022 Research-status Report
[Presentation] データ利活用に向けた仮想化プラットフォームmdxの基本性能評価2022
- Author(s)
  塙敏博，中村遼，空閑洋平，杉木章義，田浦健次朗
- Organizer
  情報処理学会研究報告（2022-HPC-183（9））
- Related Report
  2021 Research-status Report
[Presentation] 高水準なマイクロサービス層における複数ドメインを連携させたインタークラウドHPC環境実現の検討2021
- Author(s)
  杉木章義
- Organizer
  情報処理学会研究報告（2021-OS-153（9））
- Related Report
  2021 Research-status Report
[Presentation] microburst: クラウドネイティブ環境を起点とした異種混合HPCアプリケーション開発と展開の検討2021
- Author(s)
  杉木章義
- Organizer
  情報処理学会研究報告（2021-HPC-180（20））
- Related Report
  2021 Research-status Report
[Presentation] データ活用社会創成プラットフォームmdxの設計・実装・運用～多様な学際領域における共創に向けて～2021
- Author(s)
  鈴村豊太郎，杉木章義，滝沢寛之，今倉暁，中村宏，田浦健次朗，工藤知宏，塙敏博，関谷勇司，小林博樹，松島慎，空閑洋平，中村遼，姜仁河，川瀬純也，華井雅俊，宮嵜洋，石﨑勉，下徳大祐，関本義秀，樫山武浩，合田憲人，竹房あつ子，政谷好伸，栗本崇，笹山浩二，北川直哉，藤原一毅，朝岡誠，中田秀基ら
- Organizer
  大学ICT推進協議会2021年度年次大会
- Related Report
  2021 Research-status Report
[Remarks] k8s-configs: an optimized Kubernetes for mdx
- URL
  https://github.com/a-sugiki/k8s-configs
- Related Report
  2021 Research-status Report

高性能計算技術とマイクロサービス化技術の融合に関する研究

Principal Investigator

杉木 章義 北海道大学, 情報基盤センター, 准教授 (50536828)

¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Building a Software Platform towards Data Utilization Society2022

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] mdx: A Cloud Platform for Supporting Data Science and Cross-Disciplinary Research Collaborations2022

Author(s)

Journal Title

DOI

Related Report

[Presentation] マルチインスタンスGPUを用いた推論ワークロードのクラスタスケジューリング2023

Author(s)

Organizer

Related Report

[Presentation] データ利活用に向けた高性能Kubernetes環境構築の検討2022

Author(s)

Organizer

Related Report

[Presentation] データ利活用に向けた仮想化プラットフォームmdxの基本性能評価2022

Author(s)

Organizer

Related Report

[Presentation] 高水準なマイクロサービス層における複数ドメインを連携させたインタークラウドHPC環境実現の検討2021

Author(s)

Organizer

Related Report

[Presentation] microburst: クラウドネイティブ環境を起点とした異種混合HPCアプリケーション開発と展開の検討2021

Author(s)

Organizer

Related Report

[Presentation] データ活用社会創成プラットフォームmdxの設計・実装・運用～多様な学際領域における共創に向けて～2021

Author(s)

Organizer

Related Report

[Remarks] k8s-configs: an optimized Kubernetes for mdx

URL

Related Report

杉木章義北海道大学, 情報基盤センター, 准教授 (50536828)