2018 Fiscal Year Annual Research Report
ディープニューラルネットワークの特性解析と最適設計
Project/Area Number |
18J15055
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
古庄 泰隆 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2018-04-25 – 2020-03-31
|
Keywords | ディープニューラルネットワーク / ResNet / バッチ正規化 |
Outline of Annual Research Achievements |
ディープニューラルネットワーク(DNN)は物体認識から囲碁のプレイングまで幅広い分野で目覚ましい成果を上げており、現在最も注目されている分野である。近年のDNNの成功はResNetとバッチ正規化がより深いDNNの学習を可能にすることに起因する。 しかしながら、高い性能を持つDNNの実現には途方もない時間を要する。これは次の2つの問題点に起因する。(1)問題に合ったDNNのアーキテクチャをトライ・アンド・エラーで探査せざるを得ない点。(2)DNNの学習に時間を要するという点。 そこで我々は上記2つの問題点を解決するためにDNNのアーキテクチャがその性能と学習速度に及ぼす影響を解析し下記2つの結果を得た。これらの理論的な結果を基に最適なDNNのアーキテクチャと学習アルゴリズムを設計でき上記の問題点が解決できると考えられる。 まず性能について、異なるクラス間の特徴ベクトルの角度が大きいほどDNNの性能は向上する。そこで我々は入力の角度が初期化したDNNの隠れ層を経るにつれてどう変化するのか解析し次の結果を示した。多層パーセプトロンは層の数に対して指数的に角度が減少する問題がある。ResNetとバッチ正規化ははこの角度の減少を逆数的な減少へと緩和する。また初期化時点で入力の角度を高い層でも保つことで学習後のクラス間の特徴ベクトルの角度が更に増加することを示した。 次に学習速度について、勾配降下法の学習率が大きいほど学習速度は速くなるが、大きすぎると学習が収束しない。そして収束するための最大の学習率はDNNの損失関数の形状に依存する。そこで我々は損失関数の形状を解析し各DNNのアーキテクチャが収束するための最大の学習率を導出した。その結果、ResNetは層の数に対し指数的に小さな学習率しか利用できないが、バッチ正規化により層の数に対し逆数的に小さな学習率を利用できる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
現在までの進捗状況については概ね順調に進んでいる。 研究計画では2年間に渡り(1)モデル設計指標の導出と(2)学習アルゴリズムの最適化の研究を行う予定であった。本年度で既に学習アルゴリズムの最適化を概ね完了し、モデル設計指標の導出も順調に進展している。 そのため進捗状況は順調と言える。
|
Strategy for Future Research Activity |
本年度の研究では学習アルゴリズムの最適化とモデル設計指標の導出を行った。 しかしながら、導出したモデル設計指標は学習の定量的な影響を考慮していない問題点がある。 今後の研究では学習の定量的な影響まで考慮したモデル設計指標を導出する。 具体的には学習によるディープニューラルネットワークのパラメータのダイナミクスを解析し、それに基づきモデル設計指標を導出する。
|