Project/Area Number |
20K20624
|
Research Category |
Grant-in-Aid for Challenging Research (Pioneering)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 60:Information science, computer engineering, and related fields
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
横田 理央 東京工業大学, 学術国際情報センター, 教授 (20760573)
|
Co-Investigator(Kenkyū-buntansha) |
Khan Emtiyaz 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (30858022)
大島 聡史 名古屋大学, 情報基盤センター, 准教授 (40570081)
伊田 明弘 国立研究開発法人海洋研究開発機構, 付加価値情報創生部門(地球情報基盤センター), 副主任研究員 (80742121)
|
Project Period (FY) |
2020-07-30 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥25,350,000 (Direct Cost: ¥19,500,000、Indirect Cost: ¥5,850,000)
Fiscal Year 2022: ¥7,280,000 (Direct Cost: ¥5,600,000、Indirect Cost: ¥1,680,000)
Fiscal Year 2021: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
Fiscal Year 2020: ¥10,660,000 (Direct Cost: ¥8,200,000、Indirect Cost: ¥2,460,000)
|
Keywords | 階層的低ランク近似法 / 深層学習 / 行列分解 / テンソルコア / 密行列の高速解法 / 階層的低ランク近似 / H行列 / LU分解 / 2次最適化 / 継続学習 / クロネッカー因子分解 / 2次最適化 / 分散深層学習 / 線形代数ライブラリ / GPU |
Outline of Research at the Start |
近年の深層学習は個々のタスクに特化した小規模なモデルを皆が冗長に学習するのではなく、大規模なモデルを用いて様々なタスクを一元的かつ継続的に学習する方向に向かっている。しかし、国内のAI分野の研究には、GAFAなどの 膨大なデータ、計算資源、人的資源を持つ企業と同じ土俵で競争しようとするものは少ない。本研究は、これらの企業との超高精度・超大型のDNNを学習する競争に果敢に挑み、世界最大の複数のスパコンを利用できる恵まれた計算環境と、二次最適化の分散並列実装という独自技術を用いて画像処理や自然言語処理などの幅広いタスクで国際的に優位性を示すことを目指している。
|
Outline of Annual Research Achievements |
深層継続学習ではFisher情報行列の行列分解を用いることで性能が向上することが示されている。しかし、Fisher情報行列はパラメータ数Nの2乗の要素数を持つ密行列であるため、そのまま行列分解を直接行うことが困難である。これまでKronecker因子分解による近似を行うことでO(N^1.5)の計算量にする方法が提案されているが、本研究では階層的低ランク近似法であるH^2行列を用いることで、この計算量をO(N)に低減した。階層的低ランク近似法にはH^2行列の他にも基底を共有しないH行列や対角ブロックのみを分割するHSS行列などがあるが、H行列では行列分解の際に処理の依存関係のために並列化効率が低下し、HSS行列では非対角ブロックのランクが増大するため、H^2行列に比べて高い性能を得ることが難しい。HSS行列の既存研究ではULV分解を用いることで処理の依存関係を解消し、全ての対角ブロックを並列に処理する手法が提案されている。しかし、H^2行列にULV分解を適用するとfill-inブロックの再圧縮の際に共有基底の更新が必要になり、H行列と同様の依存関係の問題が生じる。本研究では、fill-inブロックを予め計算し共有基底に含めてULV分解を行うことでHSS行列のように全ての対角ブロックを並列に処理する手法を提案した。また、これをマルチGPU環境で高速に動作するように実装し、前進後退代入もブロック間の依存関係なく処理できる手法を開発した。さらに、これをLDL分解に拡張し密行列のk番目の固有値を二分探索によってO(NlogN)の計算量で求める手法を開発した。さらに、テンソルコアのような低精度演算器でも悪条件の行列の分解ができるよう、精度を補正する手法を開発した。
|