2021 年度実績報告書

異種アーキテクチャ並列環境におけるスケーラブルな機械学習基盤ソフトウェア技術

研究課題

研究課題/領域番号	20H04165
研究機関	東京工業大学
研究代表者	遠藤敏夫東京工業大学, 学術国際情報センター, 教授 (80396788)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	並列計算 / 深層学習 / GPU / マルチコア / 局所性
研究実績の概要	以下の研究項目について研究を推進した。 (a) 演算カーネルレベルのマルチコア/SIMD並列性の活用：本項目ではまず、ドメイン特化型言語(DSL)Halideにより、反復をまたぐブロッキング技術を含めたステンシルカーネルを対象とし、開発コストの低減とCPU/GPU上の高性能の両立が可能であることを示した。そしてハンドコーディングしたカーネルとの性能比較を行った。その中途成果について情報処理学会SWoPPで発表した。並行して、映像検出タスクの一種であるSingle Shot Detector (SSD)を対象とし、必要なカーネルを洗い出し、cuDNNなどの既存ライブラリのみでは不足であると判断した。そのため、SSDに必要なカーネルをCUDAで実装(現在はハンドコーディング)し、先行研究による実装よりも高速な実装を実現した。この内容について国際会議に投稿した。 (b) 水平・垂直方向の演算・データスケジューリング：マルチGPU環境において、モデル並列とデータ並列を併用するハイブリッド並列を行うフレームワークのプロトタイプを完成させた。負荷バランスとAll-reduce対象プロセス数の低減が見込める一方、プロセス間の通信パターンが複雑になるために通信処理の順序やスレッド数が性能に大きく影響することを示した。それらの課題の改良を行い、情報処理学会SWoPPで発表した。引き続き、ニューラルネットワーク構造およびハードウェア構造を考慮したマッピングの改良の研究を進めている。並行して、音声認識手法であるAugment Adversarial Training (AAT)を主対象として、マルチGPUにおけるハイブリッド並列アルゴリズムを検討し、プロトタイプ実装を行った。以上の一部の研究は産総研・東工大実社会ビッグデータ活用オープンイノベーションラボラトリとの協働で行った。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究項目(a)(b)それぞれにおいて、改良手法を取り入れたプロトタイプ実装がGPU搭載スーパーコンピュータTSUBAME上などで良好な性能を示している。またより実用的な機械学習タスクの高速化にも取り組んでおり、おおむね順調と判断する。
今後の研究の推進方策	各研究項目において、(a)Halide等でのカーネル記述や(b)ハイブリッド並列フレームワークと、実用的機械学習タスクの統合を開始し、提案手法の応用可能性を示すことをめざす。また各項目の成果について、国際会議・ワークショップにて論文投稿・研究発表を行う予定である。

研究成果
(2件)

すべて学会発表 (2件)

[学会発表] 時間ブロッキングを用いたステンシル計算のHalide言語による高性能実装と評価2021
- 著者名/発表者名
  相川洋貴，遠藤敏夫，幸朋矢，広渕崇宏
- 学会等名
  並列/分散/協調処理に関するサマーワークショップ(SWoPP2021)
[学会発表] GPUクラスタにおけるハイブリッド並列DNN学習のボトルネック分析と改良2021
- 著者名/発表者名
  細木隆豊，野村哲弘，遠藤敏夫
- 学会等名
  並列/分散/協調処理に関するサマーワークショップ(SWoPP2021)