2019 Fiscal Year Annual Research Report

深層学習の精度を考慮した自動性能最適化フレームワークの構築

Research Project

Project/Area Number	18J22858
Research Institution	Tokyo Institute of Technology
Principal Investigator	大山洋介東京工業大学, 情報理工学院, 特別研究員(DC1)
Project Period (FY)	2018-04-25 – 2021-03-31
Keywords	深層学習
Outline of Annual Research Achievements	今年度は前年度の米国LLNLとの共同研究が続行していた関係から，研究テーマ「自動性能モデリングと動的計算資源選択」を中心とした研究活動を行った．昨年度までの研究成果としては，三次元空間の質量分布よりその宇宙における物理定数を求める3次元CNN（CosmoFlowネットワーク）の学習について，最大128 GPUを用いたハイブリッド並列学習により問題サイズ128^3で先行研究と同等の推論精度を達成した．しかし，より高い推論精度の達成が期待できる問題サイズ512^3では必要なGPUメモリ量が従来のGPUに搭載されているサイズを超過し，従来の手法では学習できないことがわかった．そこで今年度は，先行研究で使用されていない問題サイズ512^3の場合の学習について計算性能・学習性能の両面から研究を行い，今後の大規模並列学習で必要となる並列化戦略を明らかにすることを目標とした．まず，問題サイズを512^3としたときの計算性能を調査した結果，学習データの読み出し（I/O）が強スケーリングのボトルネックとなることが判明したため，計算部分だけでなくデータの読み出し自体もモデル並列で行うようにし，サンプル中の各MPIプロセスが必要とする部分領域のみを読み出す等の最適化を行った．結果として，ミニバッチサイズ64，512 GPUを用いた場合と比較して，同じミニバッチサイズで2048 GPUを用いた場合におよそ2倍の高速化を達成した．また，推論精度についても，問題サイズの増加により物理定数の推定誤差が改善することを確認した．これにより，「入力データの高解像度化」という手法が専門領域にとっても有意義なものであり，このような問題の学習をハイブリッド並列の推進により可能とすることが今後の大規模データを用いた分散深層学習において重要であることを明らかにした．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 3次元CNNの大規模ハイブリッド並列学習に関する研究は国際学会IPDPS 2020に投稿したが，単一のネットワークしか評価しておらず一般性が明らかでないことを理由にリジェクトされた．そこで3Dデータのセグメンテーションを行う3D U-Netについても評価を行い，かつ性能モデリングを行って詳細に性能評価を行い，現在国際学会SC20に投稿中である．今年度の研究成果は単なる1アプリの性能評価にとどまらず，一般に3D CNNの学習を精度を損なわずに高速化する上で重要な知見を与えるものであり，順調に進展しているといえる．
Strategy for Future Research Activity	今年度までの畳み込みカーネルの性能最適化，ハイブリッド並列学習および性能モデリングに関する研究成果より，推論精度に関係するパラメータ（ミニバッチサイズ等）を保った状態で並列数・計算カーネルのループ数等をミクロ・マクロレベルの両面から最適化することが可能となった．今後はこれらの手法を組み合わせて，与えられた学習タスクに対して最適な計算資源・計算方法を与えるフレームワークの構築に取り組む．また，今年度の研究成果として，従来行うことができなかった高解像度データの学習により同じ計算資源量（GPU数）でも推論精度が向上したように，データ・モデル並列数の違いにより学習後の推論精度が大きく異なるケースが明らかになった．現在の研究成果ではこれらの良し悪しは学習後の結果を見て人間が判断するものであるが，今後はこのような推論精度の違いを考慮した最適化についても取り組む．また，二次最適化等の高い推論精度が期待できるものの計算性能が自明ではない手法についても，性能モデルの適用等によって利用を検討する．

Research Products

(6 results)

All 2019 Other

All Int'l Joint Research (1 results) Presentation (4 results) (of which Int'l Joint Research: 2 results, Invited: 1 results) Remarks (1 results)

[Int'l Joint Research] Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory
[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019
- Author(s)
  Yosuke Oyama, Naoya Maruyama, Nikoli Dryden, Peter Harrington, Jan Balewski, Satoshi Matsuoka, Marc Snir, Peter Nugent, Brian Van Essen
- Organizer
  並列/分散/協調処理に関するサマーワークショップ (SWoPP2019)
[Presentation] メモリアクセスデータを用いた機械学習によるアプリケーションの類型化2019
- Author(s)
  土川稔生，遠藤敏夫，大山洋介，野村哲弘，近藤正章，松岡聡
- Organizer
  並列/分散/協調処理に関するサマーワークショップ (SWoPP2019)
[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019
- Author(s)
  Yosuke Oyama, Naoya Maruyama, Nikoli Dryden, Peter Harrington, Jan Balewski, Satoshi Matsuoka, Marc Snir, Peter Nugent, Brian Van Essen
- Organizer
  The 1st Workshop on Parallel and Distributed Machine Learning 2019 (PDML’19), in 48th International Conference on Parallel Processing (ICPP 2019)
- Int'l Joint Research / Invited
[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019
- Author(s)
  Yosuke Oyama, Naoya Maruyama, Nikoli Dryden, Peter Harrington, Jan Balewski, Satoshi Matsuoka, Marc Snir, Peter Nugent, Brian Van Essen
- Organizer
  48th International Conference on Parallel Processing (ICPP 2019)
- Int'l Joint Research
[Remarks] Yosuke Oyama
- URL
  https://oyamay.github.io/

2019 Fiscal Year Annual Research Report

深層学習の精度を考慮した自動性能最適化フレームワークの構築

Principal Investigator

大山 洋介 東京工業大学, 情報理工学院, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory(米国)

Country Name

Counterpart Institution

[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019

Author(s)

Organizer

[Presentation] メモリアクセスデータを用いた機械学習によるアプリケーションの類型化2019

Author(s)

Organizer

[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019

Author(s)

Organizer

[Presentation] Toward Training a Large 3D Cosmological CNN with Hybrid Parallelization2019

Author(s)

Organizer

[Remarks] Yosuke Oyama

URL

大山洋介東京工業大学, 情報理工学院, 特別研究員(DC1)