2017 Fiscal Year Research-status Report
ランダム行列の数理によるディープラーニングの有効性の解明
Project/Area Number |
17K19989
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
瀧 雅人 国立研究開発法人理化学研究所, 数理創造プログラム, 上級研究員 (70548221)
|
Project Period (FY) |
2017-06-30 – 2020-03-31
|
Keywords | 深層学習 |
Outline of Annual Research Achievements |
本年度は、深層学習の理論的研究を行うとともに、計算機環境を構築した。理論的側面の研究としては、多層モデルにおいても学習が極めてスムーズに進行することが知られているresidual networkに関して、その性質の良さを学習と初期値の観点から考察した。深層学習の学習において、勾配消失を回避しながら勾配降下法による学習を成功させるためには、学習パラメータの初期値を適切に取らねばならないことが知られている。しかしresidual networkに関しては、応用的な場面では初期値については深く考えず、バッチ規格化という手法を用いることで半ば強制的に学習を収束させている。そこで初期値に関しても数理的にきちんと考察することで、これまでresidual networkに対して用いられていた初期値は適切とはいえず、よりふさわしい初期値の取り方があることを発見した。その結果、中規模のモデルではバッチ規格化を用いずともresidual networkの学習が上手くいくことが示された。最終的な研究のゴールは、収束先の局所最適解が汎化を示す理由を解明することであるが、まずはその手始めとして学習の初期がスムーズに進行する様子の詳細をresidual networkに対して、初期値の観点から調べたことになる。 また、応用的な研究として医療画像のセグメンテーションのためのモデル設計の研究も開始した。そこでも理論的側面の研究を基にしたモデル・アルゴリズムの改良が成果を出し始めているので、次年度も引き続きおこなう予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
深層学習の学習が上手くいくことを考察する目的のために、まずはresidual networkというモデルを取り上げることで、予期していたのとは違う方向で研究の可能性が拓けた。residual networkの性質は昨年度までに様々な研究者によって、loss surfaceの滑らかさなど様々な観点から説明が試みられている。本研究では初期化がresidual networkの性質と関係しうることを議論したのであるが、今後は他の研究者のアイデアや、本来のアイデアであるランダム行列理論と上手く組み合わせることで、本研究プロジェクトがスムーズに進展しうるものと期待できる。 また計算機環境に関しては、マシン組み立てを自作で行うことで、予定していた予算の一部でとてもスペックのよい計算機が用意できた。そこで今後は計算機環境の拡充を図るとともに、そのマシンを使ってloss surfaceのlandscapeなどに対して網羅的な計算機実験ができるものと期待している。
|
Strategy for Future Research Activity |
今後は本来の本研究プロジェクトの柱であるランダム行列理論を使った解析に加え、パラメータ初期化、勾配降下法の収束と汎化、loss surfaceの複雑性など、ここ最近の研究で出てきた様々なアイデアを組み入れて、多角的な視野から深層学習の学習と汎化の謎に挑む。基本的には研究計画に従って遂行して行く予定である。しかし新しい分野であるだけにどのアプローチが一番有望かはまだまだ未知であるので、常に一つの手法に固執せず、さまざまな新しいアイデアを常に取り込んで行くことにする。
|
Causes of Carryover |
本年度は当面必要となる計算機環境が予想より安価に構築できたため、出費が抑えられた。次年度使用額は、次年度分と合わせて、効率的で経済的な計算機購入へ当てる予定である。
|
Research Products
(1 results)