2018 Fiscal Year Annual Research Report
ディープラーニングのホワイトボックス化に関する研究
Project/Area Number |
18H04106
|
Research Institution | The University of Tokyo |
Principal Investigator |
岡田 真人 東京大学, 大学院新領域創成科学研究科, 教授 (90233345)
|
Co-Investigator(Kenkyū-buntansha) |
永田 賢二 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (10556062)
楽 詠コウ 東京大学, 大学院新領域創成科学研究科, 助教 (30612923)
庄野 逸 電気通信大学, 大学院情報理工学研究科, 教授 (50263231)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | ニューラルネットワーク / 情報統計力学 |
Outline of Annual Research Achievements |
ディープラーニング (DL)の最も大きな問題点は,その機能がブラックボックス化していることである.本研究課題では,DLの挙動を解明する情報数理学的枠組みの構築と,それを補完するデータ駆動型アプローチを構築する. 前者の具体的なアプローチとして,まず情報統計力学,統計神経力学,特異統計学など第二次ニューロブームを契機に発展した情報数理的な枠組みを現状のDL に適用する.本年度は,DLの学習の際に誤差が減少せずに長時間にわたり停滞する「プラトー現象」を取り扱った.プラトー現象の一因として,ニューラルネットワークの構造の対称性に由来する「特異領域」が誤差曲面上に存在し,この領域にネットワークの重みが捉われることが,様々な研究により指摘されてきた.しかしながら,既存の研究ではいずれも一次元の出力が仮定されており,複数次元の出力を行うネットワークは検討されてこなかった.本研究では,統計力学的定式化を用いて,複数個の出力素子をもつ三層パーセプトロンの学習ダイナミクスを解析した.具体的には,ニューラルネットワークの重みパラメータの巨視的な性質を捉えたオーダパラメータを定義し,高次元系である重みの更新則から,少変数系であるオーダパラメータ系の発展則(微分方程式)を導出した.オーダパラメータ系の解析により,出力が複数次元の場合には,特異領域由来のプラトー現象が軽減・消失することを示した. また,解析的取り扱いができない DL に対して数値シミュレーションデータを機械学習で解析するデータ駆動型アプローチとして,本年度では,特に少数データセットという制限下における予測性能向上手法として,転移学習やデータ拡張などを用いて2つのCNNの入力反応を比較する手法の検討および,脳皮質における表現の連続性に基づいた解析を行なうことで,一定の成果を得た.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題ではDLの挙動を解明する情報数理学的枠組みの構築として,情報統計力学による情報数理的な枠組みを現状のDL に適用している.本年度は,DLの学習の際に誤差が減少せずに長時間にわたり停滞する「プラトー現象」を取り扱い,当初の予定どおり,複数個の出力素子をもつ三層パーセプトロンの学習ダイナミクスを解析によって,ニューラルネットワークの重みパラメータの巨視的な性質を捉えたオーダパラメータを定義し,高次元系である重みの更新則から,少変数系であるオーダパラメータ系の発展則(微分方程式)を導出することができた.それにより,オーダパラメータ系の解析により,出力が複数次元の場合には,特異領域由来のプラトー現象が軽減・消失することをしただけでなく,重みの直交初期化を行った場合には学習中に特異領域への接近が生じないことを,理想的な系において理論的に示すことができた.以上の成果から,当初の計画以上に進展していると判断した.
|
Strategy for Future Research Activity |
DLの挙動を解明するため必要な高次元データの解析を,情報統計力学的に低次元に縮約して,今後も理論研究を推進する.そのために,今後は Layer Normalization と呼ばれる各中間層内の活動を正規化するアルゴリズムの挙動を明らかにする.また,本年度で取り扱ったプラトー現象を回避できるためのデータセットの統計的性質を,統計力学的手法により明らかにする. さらに,これまで扱ったDLの一種である入力から出力に一方向に情報処理が進むフィードフォワード型多層パーセプトロンだけではなく,フィードバック結合により入力画像の再構成をする生成モデル型のもの(以下,DGM,Deep Generative Model:深層生成モデルと呼ぶ)についても解析を行う そこで,特異統計学で利用される実対数的閾値(RLCT)に着目し,モンテカルロ法を援用することで,機械学習において重要な与えられたデータとDNNのモデルで決まる誤差関数を最小にするパラメータ集合の複雑さを,RLCTにより評価することを目指す.
|