研究課題/領域番号 |
20K20624
|
研究機関 | 東京工業大学 |
研究代表者 |
横田 理央 東京工業大学, 学術国際情報センター, 准教授 (20760573)
|
研究分担者 |
Khan Emtiyaz 国立研究開発法人理化学研究所, 革新知能統合研究センター, チームリーダー (30858022)
大島 聡史 名古屋大学, 情報基盤センター, 准教授 (40570081)
伊田 明弘 東京大学, 情報基盤センター, 特任准教授 (80742121)
|
研究期間 (年度) |
2020-07-30 – 2023-03-31
|
キーワード | 深層学習 / 2次最適化 / 継続学習 / クロネッカー因子分解 / H行列 |
研究実績の概要 |
本研究では,大規模並列深層学習を行なう際の収束性の問題に対して2次最適化を適用する.また,継続学習を行う際の致命的忘却の問題に対して変分推論を適用する.いずれの場合にも巨大な密行列であるフィッシャー情報行列を計算する必要があるが,これをクロネッカー因子分解や階層的低ランク近似を用いて近似し,分散並列化の枠組みを用いることで大幅に高速化することを目的とする.2020年度には,「H行列を深層学習に適用するための準備」と「継続学習のImageNetへの適用」を行った.H行列を深層学習に適用するためにはフィッシャー情報行列を階層的に分割した場合に非対角ブロックのランクが十分小さくなることを確認する必要があるため,様々なモデルとデータセットにおいてフィッシャー情報行列の非対角ブロックの特異値の分布を調べた.その結果,ミニバッチサイズが小さい場合には非対角ブロックは低ランクになっていることが分かった.フィッシャー情報行列自体はいくつかの大きい固有値と無数の微小な固有値を持つ特異な行列になっているが,通常はフィッシャー情報行列の対角成分に大きな値を足して正則化するため特異ではなくなる.このように対角+低ランク行列によって作られる行列は階層的に分割した場合に非対角ブロックが低ランクになることは納得ができる.継続学習のImageNetへの適用に関しては,H行列の深層学習への適用が前述の通り準備段階にあるため,既に実証済みのクロネッカー因子分解による近似を用いて行った.変分推論の際に必要になるフィッシャー情報行列にクロネッカー因子分解を適用することで計算時間を大幅に削減し,今まで不可能であったImageNet規模の学習において継続学習を行なうことができた.また,対角近似を用いる既存手法と比べてクロネッカー因子分解の精度は高く,継続タスクにおいて高い推論性能を示すことができた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究が挑戦的研究である理由として,フィッシャー情報行列がそもそもH行列のような形で階層的に低ランク近似できるかどうかが不明瞭であったことが挙げられる.2020年度に行った予備実験でこれが階層的に低ランク近似できないということになれば,研究の方向性を大幅に変更することも視野に入れて当初の研究計画は練られていた.しかし,フィッシャー情報行列は予想以上にH行列の形で良く近似できることが示唆される予備実験の結果が得られたため,2021年度以降には本格的にH行列を深層学習に適用する方向で進めている.フィッシャー情報行列をH行列の形で近似する研究例はこれまでになく,独自性が高い研究であることは明らかである.一方で,これまでに研究例が報告されていない理由として,フィッシャー情報行列がH行列の形で近似できないことが最大の懸念であったが,2020年度の予備実験でこれが杞憂であったことが立証された.
|
今後の研究の推進方策 |
これまでに研究代表者のグループが開発してきたクロネッカー因子分解を用いた手法ではO(N^3)の密行列分解の演算量をO(N^1.5)に低減できるが,H行列によるLU分解はO(N)でできることが申請代表者の別の課題で示されている.深層学習においてフィッシャー情報行列を計算する場合にはこれまで対角近似を用いるのが一般的であったが,これはO(N)で計算できるかわりに近似精度が非常に粗く,2次最適化や変分推論などの高い精度を要求するアプリケーションでは効果が得られないのが問題であった.H行列は対角近似と同じO(N)の演算量をもつだけでなく,その近似精度を演算量をO(N)のまま自在に制御できることが特長である.H行列のLU分解の高性能なマルチGPU実装が実現できれば,それをPyTorchやTensorFlowなどのPythonフレームワークから呼べるようにwrapperを書くことは容易である.
|
次年度使用額が生じた理由 |
コロナ禍の影響で旅費が全く消化できず,これを物品に流用するよりも次年度に持ち越すことが妥当であると判断したため.
|