2017 Fiscal Year Research-status Report
「探索」から「思考」へ-強化学習によるカオスニューラルネットダイナミクスの発達
Project/Area Number |
15K00360
|
Research Institution | Oita University |
Principal Investigator |
柴田 克成 大分大学, 理工学部, 准教授 (10260522)
|
Project Period (FY) |
2015-04-01 – 2020-03-31
|
Keywords | 強化学習 / カオスニューラルネット / 因果トレース / 誤差逆伝播法 / 探索 / 思考 / 不応性 / ダイナミクス |
Outline of Annual Research Achievements |
因果トレースを用いたカオスニューラルネットによる強化学習について,視覚センサと車輪移動のロボットによる障害物回避タスクのシミュレーションで,カオス性を左右するカオスネットの相互結合の重み値を決める乱数の大きさを変化させ,学習性能を観察した。その結果,乱数を小さくすると徐々に性能が向上するが,最適値が存在し,それを越えると急激に悪化することを確認した。また,不応性を有するニューロンを用いたカオスネットでも同様な傾向が観察されたが,乱数のサイズの最適値がより小さい方へシフトすることがわかった。 一方,本研究遂行中に大きな研究目標として浮上したカオスネットを用いた強化学習と誤差逆伝播法との融合については,乱数を付与する従来型の強化学習に近い形で学習を実現するため,探索成分と一体化された出力から探索成分を抽出するという観点から研究を行った。Actor出力をローパスフィルタに通した値との差を使ったり,出力を予測する別のニューロンを設けてその差を使ったりする方法などを試した。いずれも,ある程度の学習はできるものの,その学習性能は従来法や因果トレースを用いる方法に及んでいない。 また,リザバを用いた強化学習においては,リザバに多層ニューラルネットを接続し,中間層の出力をリザバにフィードバックする構造で,従来の乱数付与型の強化学習によって,時間を遡る必要がない誤差逆伝播法だけで記憶が必要となる簡単なタスクの学習ができることを確認した。 さらに,今後誤差逆伝搬法に基づくカオスネットの強化学習が可能になり,学習によるダイナミクスの変化が重要になることを見据え,カオスネットで記憶を必要とする問題をBPTT法で教師あり学習した場合の内部ダイナミクスの変化を観察した。リアプノフ指数が低下し,固定点収束や周期振動になるケースと,リアプノフ指数が低下せず,カオティックな振る舞いをする場合があった。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
本科研費の当初の計画では,前半で基本的な学習方法を確立し,その後,実ロボットを使うなどしてその有効性の確認へと移行していく予定であった。しかし,提案している因果トレースを用いる手法では,カオスニューラルネットの内部の学習がうまくできず,記憶や思考の実現に向けてこの大きな問題点の解決が必要となった。それを解決するためには誤差逆伝播法との融合が必要と考え,そちらに重点を置き,新たな学習方法の開発を目指した。しかしながら,前述のように,いくつかの方法を試したものの,従来法やこの科研費で最初に提案した因果トレースを使う方法に対して学習性能が劣っており,学習方法の確立には至っていない。 一方で,リザバと階層型ニューラルネットを用いた強化学習では,従来法の乱数付加型の探索をベースにしているものの,カオスダイナミクスと深い関係にあるリザバネットの記憶タスクでの有効性を示すことができた。これによってリザバネットやカオスネットの潜在能力の高さを示すことができ,高次機能創発を目指してこれらのネットを使うことの妥当性がより高くなったと考えている。しかし,このままネットワーク内部の学習をしない形での高次機能創発には限界があると想定されるため,この点の本質的な解決には至っていない。 以上のように,浮上した問題点の解決の必要性から本研究計画時の予定通り進まなかった上に,その問題点を解決するための新たな手法についても,まだうまくいく見通しがあまり立っていない。したがって,「遅れている」と判断した。
|
Strategy for Future Research Activity |
思考を始めとする高次機能の創発にはカオスネットの内部の学習が必須と考えており,そのために,提案手法と誤差逆伝播法との融合が急務と現時点では考えている。昨年度,探索成分と一体化したActor(動作)出力から探索成分を抽出して学習に利用することを目指したが期待通りに行っていないことから,今後は基本に立ち戻って,うまくいかない理由を特定するための解析を重点的に行っていく。本研究では,カオスネット内部で探索成分を動作出力と一体化した形で生成しているが,(1)カオスネットを純粋な乱数生成器と置き換えて,出力に乱数を加える場合とネットワーク内部に乱数を加える場合で違いが出るのか,もし出るようであれば,なぜなのかを,次元の縮退などの観点を中心に観察し,解明する。(2)ロボットの動作と知覚による外界とのインタラクションループがカオスダイナミクスへどのように影響するかを観察する。(3)学習方法も,探索成分を陽に抽出するという考えに限定せず,より広い視野から新しい学習方法の開発を模索する。 それと並行して,いずれカオスネットの強化学習により記憶や思考を実現することを想定し,その前段階として,引き続きカオスネットの教師あり学習によるダイナミクスの変化を観察し,カオスネットの学習による「思考」創発の可能性を検討する。今後は特に,「思考」に必須と思われる(1)多段階の自律的状態遷移の獲得,(2)カオス的遍歴のような記憶パターン間を遍歴するダイナミクスの形成 が教師あり学習によって実現するかどうか,また実現する場合は,どういう条件が必要かを確認していきたい。
|
Causes of Carryover |
新たな課題解決のために,当初の予定と異なる部分が生じたこと,および,当初の予定金額と異なる部分が生じたため。 次年度,当該課題解決のために利用する。
|
Research Products
(18 results)