深層学習の高精度化および安定化に資する新しい活性化関数の構築を目指し研究を進めた。先行研究において、既存の決定論的活性化関数の出力に摂動を与える操作が、ネットワークの正則化として機能することが見出されていた。ネットワーク内の係数を複素化して考えた場合、先行研究の活性化関数は出力に対し一種の確率的な等角線形写像を施していると捉えることができ、幾何学的にはランダムな平行移動を加えていると解釈できる。そこで、本研究では確率的に変化するベルトラミ係数を持つ活性化関数について検討した。ベルトラミ係数は定義域の各点における等角写像からの逸脱を表すものと解釈でき、ベルトラミ係数に摂動を与えることは、幾何学的には確率的な拡大・縮小・回転の操作が加わると解釈できる。先行研究の確率的活性化関数とは本質的に異なる摂動を与えていることから、別種の正則化の機能を持つ可能性があると考えた。そこで、既存の決定論的活性化関数の入力に対し、複素定数をランダムサンプリングし、それをベルトラミ係数として持つある種の確率的な線形擬等角写像を施す形で定義される活性化関数を構築した。ベルトラミ係数は等角写像の後からの合成で不変であることに注意されたい。広く使われている決定論的活性化関数および先行研究の確率的活性化関数と、構築した活性化関数の性能を複数のベンチマークデータセット上で比較した。構築した活性化関数は、ベースラインと比較して高い性能を示した。また、学習データが少ない場合に、先行研究の確率的活性化関数と本研究で構築した活性化関数の両者を組み合わせることで、さらに性能が向上する場合があることを確認した。構築した活性化関数の近似能力や、別種のベルトラミ係数への摂動の与え方についても考察した。研究の過程で得られた成果をICAART 2022において発表しており、現在国際学術誌への投稿を目指し論文の執筆を進めている。
|