2019 Fiscal Year Annual Research Report
ディープラーニングのホワイトボックス化に関する研究
Project/Area Number |
18H04106
|
Research Institution | The University of Tokyo |
Principal Investigator |
岡田 真人 東京大学, 大学院新領域創成科学研究科, 教授 (90233345)
|
Co-Investigator(Kenkyū-buntansha) |
永田 賢二 国立研究開発法人物質・材料研究機構, 統合型材料開発・情報基盤部門, 主任研究員 (10556062)
楽 詠コウ 青山学院大学, 理工学部, 准教授 (30612923)
庄野 逸 電気通信大学, 大学院情報理工学研究科, 教授 (50263231)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | ディープラーニング / 情報統計力学 / データ駆動 |
Outline of Annual Research Achievements |
ニューラルネットの学習は長く困難であったが,近年ではその学習が容易になっている.しかし,学習困難性がいかに克服されたかの理論的な理解は依然として不十分である,そこで本年度は,学習困難性克服の原因を情報統計力学の手法を用いて研究した.特に,これまで学習困難性の原因とされてきたプラトー現象がいかに克服されているかを解析の対象とした.まず,学習を高速化することが経験的に知られているバッチ正規化という手法が学習に与える影響を理論的に解析した.その結果,この手法はむしろプラトーからの脱出を遅らせることがわかった.そこで,これまで用いられていた理想化された入力データから,より現実に近いデータ構造を扱うように統計力学的解析の枠組みを拡張し,解析を行った.その結果,現実的なデータ構造の仮定の下では,プラトー現象の影響が小さくなることが示めされた.これらの結果から,長く原因とされてきたプラトー現象は現実的な問題設定の段階で克服されていること,学習を容易にする手法はプラトー克服とは別の意味で学習を容易にしている可能性があることがわかった. また,本年度では,ニューラルネットワークの一つであるMixture of Expertsにおけるベイズ推定アルゴリズムの開発に着手した.モンテカルロ法を援用して実対数的閾値(RLCT)を計算することで,ゲート関数と呼ばれる内部モデルにおける通常の設定が冗長であることを数値実験により明らかにした.また,深層学習のホワイトボックス化に向けて,変数選択についてBootstrapped LASSO(BoLASSO)法を開発し,医用画像において病変判断システムを構築するだけでなく,判断基準となる重要なテクスチャ特徴量を顕在化することに成功した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
DNNの中間素子入れ替え対称性に端を発する特異性に由来するプラトー現象は,学習の停滞を招く.このプラトー現象がデータセットの統計的性質よって生じることを数値解析を用いて示した.通常の情報統計力学的手法では,この統計的性質を持つ入力を取り扱うことは難しかったが,我々はその困難を回避する新しい理論的枠組みを構築することに成功した.
|
Strategy for Future Research Activity |
DNNの挙動を解明するために必要な高次元データの解析を,情報統計力学を用いて低次元に縮約して行う.ここでは特に,学習サンプルを使い捨てにするオンライン学習の枠組みで議論する.ニューラルネットワークの学習にはパラメータ間の対称性に起因する誤差曲面上の性質の悪い平衡点が悪影響を及ぼしていると考えられてきた.そこで,本年度はバッチ正規化と呼ばれる各中間層内の活動を正規化するアルゴリズムの挙動を明らかにし,このバッチ正規化と対称性に拠る性質の悪い平衡点からの脱出との関係性を情報統計力学的手法を用いて解析する.それによって,バッチ正規化が学習の高速化に寄与する仕組みを理解することを目指す.また,昨年度に引き続き,DNNの中間素子入れ替え対称性に端を発する特異性に由来するプラトー現象が学習の停滞を招く,という現象にも着目する.本年度は,プラトー現象を回避できるためのデータセットの統計的性質を,情報統計力学的手法により明らかにする. また,昨年度に引き続き,DGMの内部表現を定量化するために,学習済みモデルの推論の性能とその内部表現の関係について研究を行う.そのために,Variational Autoencoder (VAE)が示す推論の集団的なダイナミクスを数値解析する.手書きされた数字の画像データのように学習データにクラスター構造が内在するとき,推論の時間発展に伴って集団的なダイナミクスが低次元の非線形な部分空間に引き込まれていることを明らかにする.さらにDGMにおける潜在空間とデータ空間との写像関係における微分幾何的特徴を調べる.
|