2019 Fiscal Year Annual Research Report
From "Exploration" To "Thinking" - Development of Chaos Dynamics through Reinforcement Learning
Project/Area Number |
15K00360
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 理工学部, 教授 (10260522)
|
Project Period (FY) |
2015-04-01 – 2020-03-31
|
Keywords | ニューラルネット / カオスダイナミクス / 感度 / 感度調整学習 / リアプノフ指数 / 勾配消失問題 / 深層学習 / 強化学習 |
Outline of Annual Research Achievements |
本研究で使用するリカレントネットにおいて,カオスダイナミクスの発生および学習によるカオス性低下を防ぐ目的で,前年度,各ニューロンにおいて,入力の微小変化と出力の微小変化の大きさの比である「感度」に注目し,ネットワークのカオス性を生成,維持する学習を提案した。最終年度の本年度は,この「感度」を入力ベクトルによる出力の勾配ベクトルの大きさと再定義し,この値を1もしくはそれより少し大きな値にするような重み値の更新を「感度調整学習」と名付け,これを中心に,以下の3つの方向に大きく展開した。その結果,当初は意図していなかった勾配消失問題の解決と今後への新たな展望を得る大きな成果を得た。 【1. 「感度」とネットワークのカオス性の関係】 フラットなリカレントネットにおいて,感度調整学習時の全ニューロンの対数平均感度と最大リアプノフ指数が,ニューロン数や結合割合によらずに1になるまでの間ほぼ一致することを示した。また,2層構造にした場合は,両層の対数平均感度の和が最大リアプノフ指数とほぼ一致することを示した。このことから個々のニューロンでの局所指標を調整して,ネットワーク全体のダイナミクスをコントロールできる可能性を示した。 【2. 勾配消失問題の解決】 誤差逆伝播型の学習時に,感度調整学習を併用することで,多層または長期のタイムラグがあるリカレントネットの学習における勾配消失問題を解消できることを示した。 【3. 新しい強化学習への手がかり】 本研究の目的は,カオスニューラルネットを用いた強化学習のアルゴリズムを確立することであったが,この感度をTD誤差によって調整する全く新しい強化学習法の着想に至った。これは,ダイナミクス自体を学習するものであり,本研究の最大の問題点であるリカレント部の学習ができないという問題を根本的に解決できる非常に大きな可能性を持った発見であると考えている。
|
Research Products
(10 results)