Developing Efficient Algorithms based on Smoothing Loss Function for Large Batch Training

Research Project

Project/Area Number	20J13997
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Tokyo Institute of Technology
Principal Investigator	長沼大樹東京工業大学, 情報理工学院, 特別研究員(DC2)
Project Period (FY)	2020-04-24 – 2021-03-31
Project Status	Discontinued (Fiscal Year 2020)
Budget Amount *help	¥1,900,000 (Direct Cost: ¥1,900,000) Fiscal Year 2020: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	大規模並列深層学習 / 適応学習率法 / 二次最適化 / ラージバッチ学習 / 暗黙的正則化
Outline of Research at the Start	近年の深層学習は、他の機械学習手法と比べ非常に高い汎化性能を達成している一方、学習に用いるパラメータ数・データ数が指数関数的に増加している。そのため、一反復あたりの入力データ量を大きくし、計算機に並列して処理を行わせることで学習時間を短縮する試みは多く行われてきたが、従来の最適化手法では汎化性能が劣化することが問題が知られている。本研究では、今後主流となる大規模並列学習において、汎化性能に密接に関係する損失関数の性質に着目し、汎化性能の高い解への収束を促す最適化手法を構築することを目的とする。高速で高い汎化性能を達成可能な深層学習の大規模並列化に適した最適化手法を構築する。
Outline of Annual Research Achievements	近年の深層学習における学習時間は、非常に長い時間を要しているため、大規模並列化によって学習時間を短縮するのが喫緊の課題である。しかしながら、大規模並列化を用いて一回の入力データ量であるミニバッチサイズを大きくしたラージバッチでの学習は、スモールバッチでの学習に比べ、汎化性能が劣化する問題が知られている。実は大規模並列学習、いわゆるラージバッチ学習の問題はさらに大きく２つの問題に分解でき、一つは損失関数の形状に帰結すると考えられる問題で、もう一方は高速な収束性を求められるという問題である。本研究では上記２つの問題を解決するため、最適化手法及び適応的学習率法が収束性と汎化性能へ及ぼす影響の解析をして下記２つの結果を得た。これらの結果から、ラージバッチ学習において最適な最適化手法を設計でき、ラージバッチ学習の問題点を改善できると考えられる。まず、損失関数の形状と汎化性能について、最適化に適当なノイズとして解釈される適応的学習率法を用いた場合、巨大なバッチサイズにおいても高い汎化性能を達成する。また、バッチサイズを大きくするほど、これらの暗黙的な正則化と解釈されるノイズの効果が有効であり損失関数の形状を改善することが確認された。次に収束性に関して、Practicalな実験設定においても二次の最適化手法及びその近似手法は一次の最適化手法より高い収束性を示すことを示した。また、適応的学習率法においてもレイヤー毎の学習速度を調整することで限られた反復回数においても収束できることを示しただけでなく、より巨大なバッチサイズにおいても反復回数削減効果が得られることを示した。
Research Progress Status	令和2年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和2年度が最終年度であるため、記入しない。

Report

(1 results)

2020 Annual Research Report

Research Products

(6 results)

All 2020 Other

All Int'l Joint Research (1 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Int'l Joint Research] Mila/University of Montreal(カナダ)
- Related Report
  2020 Annual Research Report
[Presentation] ニューラルネットワーク学習におけるLARSによるバッチサイズ拡張効果と反復回数削減効果の検証2020
- Author(s)
  長沼大樹, 井手達朗, 横田理央
- Organizer
  JSAI2020
- Related Report
  2020 Annual Research Report
[Presentation] A Preliminary Study of the LARS Effect to Large Batch Training Problem2020
- Author(s)
  長沼大樹, 横田理央
- Organizer
  CREST Deep Symposium 2020
- Related Report
  2020 Annual Research Report
[Presentation] Towards Understanding the relationship of Batch Size and Iterations in Deep Learning2020
- Author(s)
  Hiroki Naganuma, Rio Yokota
- Organizer
  MLSS2020
- Related Report
  2020 Annual Research Report
- Int'l Joint Research
[Presentation] Stochastic Weight Averaging (SWA) のハイパーパラメータの影響に関する実験的解析2020
- Author(s)
  所畑貴大; 長沼大樹; 横田理央
- Organizer
  IBIS2020
- Related Report
  2020 Annual Research Report
[Presentation] 深層学習における学習過程の汎化指標解析とハイパーパラメータ最適化への応用2020
- Author(s)
  長沼大樹; 野村将寛; 横田理央
- Organizer
  IBIS2020
- Related Report
  2020 Annual Research Report

Developing Efficient Algorithms based on Smoothing Loss Function for Large Batch Training

Principal Investigator

長沼 大樹 東京工業大学, 情報理工学院, 特別研究員(DC2)

¥1,900,000 (Direct Cost: ¥1,900,000)

Report

Research Products

[Int'l Joint Research] Mila/University of Montreal(カナダ)

Related Report

[Presentation] ニューラルネットワーク学習におけるLARSによるバッチサイズ拡張効果と反復回数削減効果の検証2020

Author(s)

Organizer

Related Report

[Presentation] A Preliminary Study of the LARS Effect to Large Batch Training Problem2020

Author(s)

Organizer

Related Report

[Presentation] Towards Understanding the relationship of Batch Size and Iterations in Deep Learning2020

Author(s)

Organizer

Related Report

[Presentation] Stochastic Weight Averaging (SWA) のハイパーパラメータの影響に関する実験的解析2020

Author(s)

Organizer

Related Report

[Presentation] 深層学習における学習過程の汎化指標解析とハイパーパラメータ最適化への応用2020

Author(s)

Organizer

Related Report

長沼大樹東京工業大学, 情報理工学院, 特別研究員(DC2)