2018 Fiscal Year Annual Research Report
深層学習の精度を考慮した自動性能最適化フレームワークの構築
Project/Area Number |
18J22858
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
大山 洋介 東京工業大学, 情報理工学院, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | 深層学習 |
Outline of Annual Research Achievements |
昨年度から行っていたCNNの畳み込み層の計算カーネル最適化に関する研究については、より幅広い種類のCNNへ対応するために深層学習用ベンチマークであるDeepBenchを用いて性能評価を行い、さらに最新のGPUで採用されている半精度演算を用いた場合について最適化の際の探索空間を拡大する手法を提案した。これらの研究成果は2018年9月開催のIEEE Cluster 2018に投稿・採択された。 また、このテーマを発展させ、より多様なDNNや並列化手法に対応した計算カーネルの自動最適化についても研究を継続している。本手法では畳み込み層・プーリング層などの複数の種類のレイヤーを対象とし、その計算の依存性に考慮して任意方向のループ分割に拡張することを試みた。また、ネットワーク定義フォーマットであるONNXを採用することで特定のフレームワークに限定しない汎用的なカーネル最適化ライブラリとした。現在は開発途中のライブラリを用いて個々の計算カーネルの性能評価を行っている段階である。 また、2019年1月から3月の米国LLNLへのインターンでは、3次元の粒子データに付随する物理定数をCNNで推定する機械学習タスクのハイブリッド並列化に取り組んだ。3次元CNNはネットワークやデータサイズの問題から性能最適化が十分に行われていないという問題があるが、本インターンではLLNLで開発中のCNNのハイブリッド並列計算ライブラリを3次元CNNに対して拡張し、大規模なGPUクラスタ上での学習を可能にした。結果として、NVIDIA Tesla V100 128個を用いた1 TBのデータセットのハイブリッド並列での学習において、先行研究と同様の推論精度を達成した。この成果は従来のデータ並列学習ではGPUメモリサイズ不足により実行することのできない結果である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は昨年度からのETH ZurichのTorsten Hoeflerらの研究グループとの共同研究が続行していた関係から「研究内容2」の「自動性能モデリングと動的計算資源選択」を中心とした研究活動を行ったが、このテーマに深く関連する研究成果をIEEE Cluster 2018で発表することができた。さらに、「研究内容2」の最終的な研究目標である「特定の計算カーネルに依存しない性能モデリング」を行うにあたり必要な実験用コードや実験データを作成・計測することができた。 「研究内容1」の「投機的な並行学習による高性能なアルゴリズムの自動選択」については、3次元CNNのハイブリッド並列学習の事例により、実際に大規模環境で提案手法を評価する上で必要なコード・データ・計算環境を整えることができた。
|
Strategy for Future Research Activity |
「自動性能モデリングと動的計算資源選択」のテーマに関しては、現在開発中のライブラリを用いて複数の異なるネットワークの計算カーネルについて性能評価を行う。提案手法ではONNXフォーマットを採用していることから、最新のネットワークを用いた性能評価や複数の異なる深層学習フレームワークとの結合は容易である。 「投機的な並行学習による高性能なアルゴリズムの自動選択」については、現在得られているハイブリッド並列学習についての研究成果を発表後、より精緻な並列数の最適化や計算精度の最適化という文脈で研究を継続する。現在はボトルネックとなる畳み込み計算をすべての計算を単精度浮動小数点数型で行っており、Tesla V100では半精度浮動小数点数型の利用により大幅な高速化が見込まれるが、一方で対象としている粒子データセットの精度への影響が未知であるため、提案手法の有効性が確認できる・できないに関わらず一種のケーススタディとしての知見が得られると考えられる。
|
Remarks |
・Yosuke Oyama, Tal Ben-Nun, Torsten Hoefler, Satoshi Matsuoka, μ-cuDNN: Accelerating Deep Learning Frameworks with Micro-Batching, arXiv e-prints, 2018. ・情報処理学会 2018年度 山下記念研究賞
|