2018 Fiscal Year Annual Research Report

深層学習の精度を考慮した自動性能最適化フレームワークの構築

Research Project

Project/Area Number	18J22858
Research Institution	Tokyo Institute of Technology
Principal Investigator	大山洋介東京工業大学, 情報理工学院, 特別研究員(DC1)
Project Period (FY)	2018-04-25 – 2021-03-31
Keywords	深層学習
Outline of Annual Research Achievements	昨年度から行っていたCNNの畳み込み層の計算カーネル最適化に関する研究については、より幅広い種類のCNNへ対応するために深層学習用ベンチマークであるDeepBenchを用いて性能評価を行い、さらに最新のGPUで採用されている半精度演算を用いた場合について最適化の際の探索空間を拡大する手法を提案した。これらの研究成果は2018年9月開催のIEEE Cluster 2018に投稿・採択された。また、このテーマを発展させ、より多様なDNNや並列化手法に対応した計算カーネルの自動最適化についても研究を継続している。本手法では畳み込み層・プーリング層などの複数の種類のレイヤーを対象とし、その計算の依存性に考慮して任意方向のループ分割に拡張することを試みた。また、ネットワーク定義フォーマットであるONNXを採用することで特定のフレームワークに限定しない汎用的なカーネル最適化ライブラリとした。現在は開発途中のライブラリを用いて個々の計算カーネルの性能評価を行っている段階である。また、2019年1月から3月の米国LLNLへのインターンでは、3次元の粒子データに付随する物理定数をCNNで推定する機械学習タスクのハイブリッド並列化に取り組んだ。3次元CNNはネットワークやデータサイズの問題から性能最適化が十分に行われていないという問題があるが、本インターンではLLNLで開発中のCNNのハイブリッド並列計算ライブラリを3次元CNNに対して拡張し、大規模なGPUクラスタ上での学習を可能にした。結果として、NVIDIA Tesla V100 128個を用いた1 TBのデータセットのハイブリッド並列での学習において、先行研究と同様の推論精度を達成した。この成果は従来のデータ並列学習ではGPUメモリサイズ不足により実行することのできない結果である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 今年度は昨年度からのETH ZurichのTorsten Hoeflerらの研究グループとの共同研究が続行していた関係から「研究内容2」の「自動性能モデリングと動的計算資源選択」を中心とした研究活動を行ったが、このテーマに深く関連する研究成果をIEEE Cluster 2018で発表することができた。さらに、「研究内容2」の最終的な研究目標である「特定の計算カーネルに依存しない性能モデリング」を行うにあたり必要な実験用コードや実験データを作成・計測することができた。「研究内容1」の「投機的な並行学習による高性能なアルゴリズムの自動選択」については、3次元CNNのハイブリッド並列学習の事例により、実際に大規模環境で提案手法を評価する上で必要なコード・データ・計算環境を整えることができた。
Strategy for Future Research Activity	「自動性能モデリングと動的計算資源選択」のテーマに関しては、現在開発中のライブラリを用いて複数の異なるネットワークの計算カーネルについて性能評価を行う。提案手法ではONNXフォーマットを採用していることから、最新のネットワークを用いた性能評価や複数の異なる深層学習フレームワークとの結合は容易である。「投機的な並行学習による高性能なアルゴリズムの自動選択」については、現在得られているハイブリッド並列学習についての研究成果を発表後、より精緻な並列数の最適化や計算精度の最適化という文脈で研究を継続する。現在はボトルネックとなる畳み込み計算をすべての計算を単精度浮動小数点数型で行っており、Tesla V100では半精度浮動小数点数型の利用により大幅な高速化が見込まれるが、一方で対象としている粒子データセットの精度への影響が未知であるため、提案手法の有効性が確認できる・できないに関わらず一種のケーススタディとしての知見が得られると考えられる。
Remarks	・Yosuke Oyama, Tal Ben-Nun, Torsten Hoefler, Satoshi Matsuoka, μ-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batching, arXiv e-prints, 2018. ・情報処理学会 2018年度山下記念研究賞

Research Products
(10 results)

All 2019 2018 Other

All Int'l Joint Research (2 results) Presentation (7 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

[Int'l Joint Research] ETH Zurich(スイス)
- Country Name
  SWITZERLAND
- Counterpart Institution
  ETH Zurich
[Int'l Joint Research] Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory/University of Illinois(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory/University of Illinois
[Presentation] u-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batches2019
- Author(s)
  Yosuke Oyama, Tal Ben-Nun, Torsten Hoefler, Satoshi Matsuoka
- Organizer
  GPU Technology Conference 2019 (GTC 2019)
- Int'l Joint Research
[Presentation] Accelerating Deep Learning Frameworks with Micro-batches2018
- Author(s)
  Yosuke Oyama, Tal Ben-Nun, Torsten Hoefler, Satoshi Matsuoka
- Organizer
  IEEE Cluster 2018
- Int'l Joint Research
[Presentation] 大規模並列環境における少精度型を用いたディープラーニングの学習精度の検証2018
- Author(s)
  大山洋介
- Organizer
  JHPCN：学際大規模情報基盤共同利用・共同研究拠点第10回シンポジウム
[Presentation] 機械学習による計算機トレースの自動生成2018
- Author(s)
  土川稔生, 大山洋介, 野村哲弘, 松岡聡
- Organizer
  並列/分散/協調処理に関するサマーワークショップ (SWoPP2018)
[Presentation] 深層学習におけるBatchNormalization使用時の計算時間と精度の関係性2018
- Author(s)
  八島慶汰, 大山洋介, 松岡聡
- Organizer
  並列/分散/協調処理に関するサマーワークショップ (SWoPP2018)
[Presentation] 大規模並列環境における低精度型を用いたディープラーニングの学習精度の検証2018
- Author(s)
  大山洋介, 野村哲弘, 佐藤育郎, 松岡聡
- Organizer
  公開シンポジウム「Co-Designによる深層学習基盤」
[Presentation] μ-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batching2018
- Author(s)
  Yosuke Oyama, Tal Ben-Nun, Torsten Hoefler, Satoshi Matsuoka
- Organizer
  公開シンポジウム「Co-Designによる深層学習基盤」
[Remarks] Yosuke Oyama
- URL
  https://oyamay.github.io/

2018 Fiscal Year Annual Research Report

深層学習の精度を考慮した自動性能最適化フレームワークの構築

Principal Investigator

大山 洋介 東京工業大学, 情報理工学院, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] ETH Zurich(スイス)

Country Name

Counterpart Institution

[Int'l Joint Research] Lawrence Livermore National Laboratory/Lawrence Berkeley National Laboratory/University of Illinois(米国)

Country Name

Counterpart Institution

[Presentation] u-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batches2019

Author(s)

Organizer

[Presentation] Accelerating Deep Learning Frameworks with Micro-batches2018

Author(s)

Organizer

[Presentation] 大規模並列環境における少精度型を用いたディープラーニングの学習精度の検証2018

Author(s)

Organizer

[Presentation] 機械学習による計算機トレースの自動生成2018

Author(s)

Organizer

[Presentation] 深層学習におけるBatchNormalization使用時の計算時間と精度の関係性2018

Author(s)

Organizer

[Presentation] 大規模並列環境における低精度型を用いたディープラーニングの学習精度の検証2018

Author(s)

Organizer

[Presentation] μ-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batching2018

Author(s)

Organizer

[Remarks] Yosuke Oyama

URL

大山洋介東京工業大学, 情報理工学院, 特別研究員(DC1)