• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Final Research Report

Application of Unconventional Linear Algebra Techniques to Continuous Learning in Supergiant Neural Networks

Research Project

  • PDF
Project/Area Number 20K20624
Research Category

Grant-in-Aid for Challenging Research (Pioneering)

Allocation TypeMulti-year Fund
Review Section Medium-sized Section 60:Information science, computer engineering, and related fields
Research InstitutionTokyo Institute of Technology

Principal Investigator

Yokota Rio  東京工業大学, 学術国際情報センター, 教授 (20760573)

Co-Investigator(Kenkyū-buntansha) Khan Emtiyaz  国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (30858022)
大島 聡史  名古屋大学, 情報基盤センター, 准教授 (40570081)
伊田 明弘  国立研究開発法人海洋研究開発機構, 付加価値情報創生部門(地球情報基盤センター), 副主任研究員 (80742121)
Project Period (FY) 2020-07-30 – 2024-03-31
Keywords階層的低ランク近似法 / 深層学習 / 行列分解 / テンソルコア
Outline of Final Research Achievements

It has been shown that using matrix factorization of the Fisher information matrix improves the performance of continual deep learning. However, it is difficult to perform matrix factorization directly on the Fisher information matrix because it is a dense matrix where the number of elements grows with the square of the number of parameters N. In this study, we use the H^2 matrix, which is a hierarchical low-rank approximation method that can reduce computational complexity to O(N). Furthermore, we proposed a method to process all diagonal blocks in parallel by performing ULV decomposition with fill-in blocks pre-computed and included in the shared basis. We also developed a method for recovering the numerical accuracy when using low-precision arithmetic units such as tensor cores, which allows us to factorize ill-conditioned matrices.

Free Research Field

高性能計算

Academic Significance and Societal Importance of the Research Achievements

Fisher情報行列は継続学習やモデル・マージング、連合学習を行う際に有用であることが知られているが、その計算コストは膨大でありモデルの規模が近年急激に増大していることからも、その計算を高速化する手法が求められている。これまでKronecker因子分解による近似を行うことでO(N^1.5)の計算量にする方法が提案されているが、本研究ではこれをO(N)にまで低減できたことは意義深い。これにより、継続学習、モデル・マージング、連合学習の研究が加速すれば、一部の限られた大企業の専売特許となっている大規模な生成モデルの構築が、より多くの研究者の共同作業によって分担して構築できるようになる。

URL: 

Published: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi