Developing Efficient Algorithms based on Smoothing Loss Function for Large Batch Training
Project/Area Number |
20J13997
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
長沼 大樹 東京工業大学, 情報理工学院, 特別研究員(DC2)
|
Project Period (FY) |
2020-04-24 – 2021-03-31
|
Project Status |
Discontinued (Fiscal Year 2020)
|
Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 2020: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 大規模並列深層学習 / 適応学習率法 / 二次最適化 / ラージバッチ学習 / 暗黙的正則化 |
Outline of Research at the Start |
近年の深層学習は、他の機械学習手法と比べ非常に高い汎化性能を達成している一方、学習に用いるパラメータ数・データ数が指数関数的に増加している。そのため、一反復あたりの入力データ量を大きくし、計算機に並列して処理を行わせることで学習時間を短縮する試みは多く行われてきたが、従来の最適化手法では汎化性能が劣化することが問題が知られている。本研究では、今後主流となる大規模並列学習において、汎化性能に密接に関係する損失関数の性質に着目し、汎化性能の高い解への収束を促す最適化手法を構築することを目的とする。高速で高い汎化性能を達成可能な深層学習の大規模並列化に適した最適化手法を構築する。
|
Outline of Annual Research Achievements |
近年の深層学習における学習時間は、非常に長い時間を要しているため、大規模並列化によっ て学習時間を短縮するのが喫緊の課題である。しかしながら、大規模並列化を用いて一回の入力データ量であ るミニバッチサイズを大きくしたラージバッチでの学習は、スモールバッチでの学習に比べ、汎化性能が劣化する問題が知られている。実は大規模並列学習、いわゆるラージバッチ学習の問題はさらに大きく2つの問題に分解でき、一つは損失関数の形状に帰結すると考えられる問題で、もう一方は高速な収束性を求められるという問題である。 本研究では上記2つの問題を解決するため、最適化手法及び適応的学習率法が収束性と汎化性能へ及ぼす影響の解析をして下記2つの結果を得た。これらの結果から、ラージバッチ学習において最適な最適化手法を設計でき、ラージバッチ学習の問題点を改善できると考えられる。 まず、損失関数の形状と汎化性能について、最適化に適当なノイズとして解釈される適応的学習率法を用いた場合、巨大なバッチサイズにおいても高い汎化性能を達成する。また、バッチサイズを大きくするほど、これらの暗黙的な正則化と解釈されるノイズの効果が有効であり損失関数の形状を改善することが確認された。 次に収束性に関して、Practicalな実験設定においても二次の最適化手法及びその近似手法は一次の最適化手法より高い収束性を示すことを示した。また、適応的学習率法においてもレイヤー毎の学習速度を調整することで限られた反復回数においても収束できることを示しただけでなく、より巨大なバッチサイズにおいても反復回数削減効果が得られることを示した。
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|
Report
(1 results)
Research Products
(6 results)