2021 Fiscal Year Research-status Report

Application of Unconventional Linear Algebra Techniques to Continuous Learning in Supergiant Neural Networks

Research Project

Project/Area Number	20K20624
Research Institution	Tokyo Institute of Technology
Principal Investigator	横田理央東京工業大学, 学術国際情報センター, 准教授 (20760573)
Co-Investigator(Kenkyū-buntansha)	Khan Emtiyaz 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (30858022) 大島聡史名古屋大学, 情報基盤センター, 准教授 (40570081) 伊田明弘国立研究開発法人海洋研究開発機構, 付加価値情報創生部門(地球情報基盤センター), 副主任研究員 (80742121)
Project Period (FY)	2020-07-30 – 2023-03-31
Keywords	深層学習 / 2次最適化 / 継続学習 / クロネッカー因子分解 / H行列
Outline of Annual Research Achievements	最近の深層ニューラルネットワーク (DNN) の傾向を見ると、個々のタスクに特化した小規模なモデルを皆が冗長に学習するのではなく、大規模なモデルを用いて様々なタスクを一元的かつ継続的に学習する方向に向かっている。本研究では、このような超巨大ニューラルネットの継続学習を行う際に用いられるフィッシャー情報行列を高速に計算する方法を開発する。2021年度は、「分散並列二次最適化の BERT-Large への拡張」と「H 行列の GPU 実装と深層学習への応用」を計画当初の目標として掲げていたが、これらの目標は概ね達成できたといえる。分散並列二次最適化の BERT-Large への拡張に関しては、畳み込みニューラルネット(CNN)などよりも構造が単純なTransformerベースの BERT モデルは二次最適化に必要なフィッシャー行列のクロネッカー因子分解による近似が容易であり、BERT-Large への拡張は問題なく行うことができた。また、H 行列の GPU 実装に関しては、BLASのライブラリをcuBLASに置き換えることで高性能な GPU 実装が実現できた。H 行列では無数の小さな行列が生じるため batch 処理が必要になるが、これも MAGMA などのライブラリに標準的に実装されている機能であり、行列積だけでなく行列分解などの GPU 実装も行うことができた。深層学習への応用に関しては、2020年度に行った検証実験において、対角+低ランク行列によって作られるフィッシャー情報行列は階層的に分割した場合に非対角ブロックが低ランクになることが確認されており、この原理を応用することで大幅な高速化を実現することができた。クロネッカー因子分解ではO(N^1.5)の計算量になるが、H 行列分解はO(N)の計算量になることが実証できた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究が挑戦的研究である理由として、フィッシャー情報行列がそもそもH行列のような形で階層的に低ランク近似できるかどうかが不明瞭であったことが挙げられる。2020年度に行った予備実験ではフィッシャー情報行列は予想以上にH行列の形で良く近似できることが示唆された。2021年度はこの予備実験で得られた仮説をもとに、ImageNetの継続学習のような実際のアプリケーションにおいても H 行列が有効であることを実証した。さらに、これまで CPU 上でしか実装されていなかった H 行列のアルゴリズムを GPU 上で実装し、分散並列化により複数の GPU で並列に計算できるようにした。前述の ImageNet規模での継続学習はこのような高速なマルチ GPU 実装がなければ実現できなかった。
Strategy for Future Research Activity	2021年度には、これまで畳み込みニューラルネット(CNN)しか対象としていなかった分散並列二次最適化の手法を BERT のような Transformer にも拡張した。Transformerは自然言語処理分野では現在支配的なモデルアーキテクチャになっており、画像認識分野でもVision Transformerの形で浸透しつつある。このような Transformer 上でフィッシャー行列が高速に分散並列で計算できる技術は、今後応用の幅がますます広がると予想される。
Causes of Carryover	コロナ禍の影響で旅費が全く消化できず、これを物品に流用するよりも次年度に持ち越すことが妥当であると判断したため。

Research Products
(6 results)

All 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (5 results) (of which Int'l Joint Research: 3 results)

[Journal Article] Recovering Single Precision Accuracy from Tensor Cores While Surpassing the FP32 Theoretical Peak Performance2022
- Author(s)
  Hiroyuki Ootomo, Rio Yokota
- Journal Title
  
  The International Journal of High Performance Computing Application
  
  Volume: 1 Pages: 1
- Peer Reviewed
[Presentation] Acceleration of O(N) Solvers for Large Dense Matrices2022
- Author(s)
  Sameer Deshmukh
- Organizer
  Conference on Advance Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2022)
- Int'l Joint Research
[Presentation] Parallel QR Factorization of Block Low-rank Matrices2022
- Author(s)
  Muhammad Ridwan Apriansyah
- Organizer
  Conference on Advance Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2022)
- Int'l Joint Research
[Presentation] Iterative Refinement with Hierarchical Low-rank Preconditioners Using Mixed Precision2022
- Author(s)
  Thomas Spendlhofer
- Organizer
  Conference on Advance Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2022)
- Int'l Joint Research
[Presentation] 深層学習における2次最適化の汎化性能の検証2022
- Author(s)
  石井央，横田理央
- Organizer
  第84回情報処理学会全国大会
[Presentation] Vision Transformerにおけるバッチサイズの汎化性能への影響2022
- Author(s)
  中村秋海，横田理央
- Organizer
  第84回情報処理学会全国大会

2021 Fiscal Year Research-status Report

Application of Unconventional Linear Algebra Techniques to Continuous Learning in Supergiant Neural Networks

Principal Investigator

横田 理央 東京工業大学, 学術国際情報センター, 准教授 (20760573)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Recovering Single Precision Accuracy from Tensor Cores While Surpassing the FP32 Theoretical Peak Performance2022

Author(s)

Journal Title

[Presentation] Acceleration of O(N) Solvers for Large Dense Matrices2022

Author(s)

Organizer

[Presentation] Parallel QR Factorization of Block Low-rank Matrices2022

Author(s)

Organizer

[Presentation] Iterative Refinement with Hierarchical Low-rank Preconditioners Using Mixed Precision2022

Author(s)

Organizer

[Presentation] 深層学習における2次最適化の汎化性能の検証2022

Author(s)

Organizer

[Presentation] Vision Transformerにおけるバッチサイズの汎化性能への影響2022

Author(s)

Organizer

横田理央東京工業大学, 学術国際情報センター, 准教授 (20760573)