ディープニューラルネットワーク(DNN)は物体認識から囲碁のプレイングまで幅広い分野で目覚ましい成果を上げており現在もっとも注目されている分野である。近年のDNNの成功はそのアーキテクチャと最適化アルゴリズムに起因するが、その理論的な性質は十分にあきらかでなかった。本研究ではこのDNNアーキテクチャや最適化アルゴリズムがその性能に及ぼす影響を解析し、適切なアーキテクチャや最適化アルゴリズムのハイパーパラメータを調査した。 まず近年提案されたアーキテクチャであるResNetが従来のアーキテクチャである多層パーセプトロン(MLP)よりも高い汎化性能を持つことを示した。MLPは複数の層を直列に繋げたアーキテクチャで、与えられた入力はそれらの層を経て変換され出力される。一方でResNetは各層間にショートカットを導入し層をスキップするアーキテクチャを持つ。これにより訓練データの変化に出力が頑強になり高い汎化性能を達成出来る。さらにResNetのショートカットは1層だけスキップするよりも2層スキップするほうが高い汎化性能を持つことを示した。 次にResNetを学習する際はバッチ正規化により勾配降下法で高い学習率が使えることを示した。具体的には学習が発散しないようにResNetは層の数に対して学習率を指数的に小さくする必要があるが、バッチ正規化により指数的な減少を多項式に抑えることができる。この結果高い学習率が使え学習が高速化する。
|