2016 年度実施状況報告書

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

研究課題

研究課題/領域番号	15K00360
研究機関	大分大学
研究代表者	柴田克成大分大学, 工学部, 准教授 (10260522)
研究期間 (年度)	2015-04-01 – 2020-03-31
キーワード	強化学習 / カオスニューラルネット / 障害物回避 / 視覚センサ / カオスニューロン / リザバー / BPWT / 因果トレース
研究実績の概要	本年度は，まず，学習タスクを変えて，ロボットの移動を前後左右ではなく，左右の車輪による移動とし，センサをロボット自身が持つ簡易的な視覚センサとして物体到達タスクが学習できることを確認した。その後，さらに，障害物回避タスクの学習もある程度学習できることを確認した。また，学習によって中間層ニューロンや出力ニューロンの出力が飽和し，滑らかな動作が実現できない問題に対し，従来のように重み値や出力関数の勾配を大きくしてカオスを発生させる方法から，不応期を持つカオスニューロンを利用する方法へ切り替えた。これによって，出力の飽和がある程度抑えられ，より滑らかな動作が実現できることがわかった。しかし，パラメータの調整が難しく，どのような設定が最適かはまだ見えていない。それから，リザバーによる複雑なダイナミックパターンの学習能力を最終的に提案手法に取り込むことを想定し，リザバーの出力に対して乱数を付加し，教師信号を直接与えずに，２乗誤差を罰のように与えて学習させるHoerzerらが示した学習に対し，乱数を付加することなくリザバー内部のカオスダイナミクスによる変動を利用して記憶タスクを同様に学習ができることを確認した。また，その際，学習の進行にともなって出力の変動が抑えられるとともに，学習すべき入出力関係を変えて誤差が増えると，外部から指示を与えることなく，カオスダイナミクスによる変動が再び現れて，探索し，再び学習が進むと変動成分が小さくなるといった探索成分の自律的調整機能があることを確認した。また，因果トレースを使ったBPWT(Back Propagation With Time)による教師あり学習については，セルフフィードバック結合の重み値を大きくするか，動的ニューロンを導入して時定数をある程度大きくすることで，逐次入力を行うEXOR学習がBPTTの場合に近い学習性能になることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本年度は，視覚センサ入力，障害物回避タスクと，学習タスクを変えても提案手法が有効であり，特定のタスクだけではなく，様々なタスクの学習ができる可能性を示すことができた。さらに，リザバー型のネットワークでの強化学習に近い形での学習に対し，乱数を使わずに，内部のカオスダイナミクスによる変動によって学習させることができたことは，リザバー型ネットの学習と提案手法との融合，さらには，誤差信号を明示的に求められる可能性から，誤差逆伝搬型の学習との融合に向けて大きな進歩と言える。また，因果トレースを使ったBPWTによる教師あり学習では，中間層ニューロン間の結合の初期重み値はランダムではうまくいかないこと，さらにその理由もわかって来ており，それに対し，セルフフィードバックの重み値を大きくするか時定数が大きな動的ニューロンの導入して，出力の時間変化があまり激しくならないようにすることが重要であると考えられる。本年度はさらに，カオスニューラルネットを用いた強化学習の問題点を解決し，カオスの発生方法や適切なパラメータの設定など，具体的な学習方法を確立し，従来型の外部から乱数を付加する方法と同程度の学習ができるようになることを目指した。不応期を持つカオスニューロンを使う方法を試みて，出力が飽和してしまう問題をある程度解決できたものの，従来型の学習と同程度の学習をするところまでは至っておらず，今後の課題として残った。
今後の研究の推進方策	カオスニューラルネットを用いた強化学習の方法として現在の因果トレースを用いた方法が最適との保証がないことから，パラメータ調整等の細かいところは少し置いておき，より根本的な学習方法自体を改めて見直していくことに力を入れたい。今後は，従来，深層学習を含むニューラルネットを用いた学習において大きな成果を残して来た誤差逆伝搬型の学習との融合が一つの大きな課題になると考えている。そこで，前述のリザバー型のニューラルネットで，外部乱数を用いない，内部のカオスダイナミクスを利用した学習をヒントにし，出力の誤差を明示的に与える方法を考える。そして，その誤差信号を，ネットワーク内を逆伝搬させることで，出力部のみではなく，カオスニューラルネットの中間層部分も強化学習によって学習させ，学習がうまくいくか確認し，いかなければその問題点は何かを解明していきたい。さらに，中間層の相互結合部で何らかの記憶が必要となり，その影響が時間をおいて後ほど必要となるタスクの学習を試み，学習ができるかどうか，そして，相互結合部が学習によってどのように変化しているかを確認し，うまくいかなければその問題点はどこにあるかを探っていきたい。また，因果トレースを使ったBPWTによる教師あり学習については，動的ニューロンを導入し，時定数を大きくすることで，ゆっくりではあるが複雑なダイナミクスの形成へとつなげていけるかどうかを，逐次EXORよりも難しい問題に適用することで確認していく。
次年度使用額が生じた理由	本研究に必要な購入予定の計算機が発売されず，また，同様な機能を有する代替機がなかったため。
次年度使用額の使用計画	平成２９年度に当該計算機が発売される見込みであるため，発売され次第その購入に使用する予定である。

研究成果
(11件)

すべて 2017 2016

すべて雑誌論文 (6件) (うち査読あり 3件、謝辞記載あり 6件) 学会発表 (5件) (うち国際学会 2件)

[雑誌論文] 深層学習が示唆するend-to-end強化学習に基づく機能創発アプローチの重要性と思考の創発に向けたカオスニューラルネットを用いた新しい強化学習2017
- 著者名/発表者名
  柴田克成，後藤祐樹
- 雑誌名
  
  認知科学
  
  巻: 24巻，1号ページ: 96-117
- 査読あり / 謝辞記載あり
[雑誌論文] Emergence of Higher Exploration in Reinforcement Learning Using a Chaotic Neural Network2016
- 著者名/発表者名
  Yuki Goto and Katsunari Shibata
- 雑誌名
  
  Proc. of Int'l Conf. on Neural Information Processing (ICONIP)2016, LNCS 9947
  
  巻: - ページ: 40-48
- DOI
  10.1007/978-3-319-46687-3_5
- 査読あり / 謝辞記載あり
[雑誌論文] Reward-Based Learning of a Memory-Required Task Based on the Internal Dynamics of a Chaotic Neural Network2016
- 著者名/発表者名
  Toshitaka Matsuki and Katsunari Shibata
- 雑誌名
  
  Proc. of Int'l Conf. on Neural Information Processing (ICONIP)2016, LNCS 9947
  
  巻: - ページ: 376-383
- DOI
  10.1007/978-3-319-46687-3_42
- 査読あり / 謝辞記載あり
[雑誌論文] カオスニューラルネットを用いた強化学習における高次探索の創発2016
- 著者名/発表者名
  後藤祐樹，柴田克成
- 雑誌名
  
  第32回計測自動制御学会九州支部学術講演会予稿集
  
  巻: - ページ: 120-123
- 謝辞記載あり
[雑誌論文] カオスニューラルネットの内部ダイナミクスを利用した記憶タスクの報酬に基づく学習2016
- 著者名/発表者名
  松木俊貴，柴田克成
- 雑誌名
  
  第32回計測自動制御学会九州支部学術講演会予稿集
  
  巻: - ページ: 124-127
- 謝辞記載あり
[雑誌論文] BPWT を用いたリカレントネットの教師あり学習における相互結合部の重み値の影響2016
- 著者名/発表者名
  山本一真，柴田克成
- 雑誌名
  
  第32回計測自動制御学会九州支部学術講演会予稿集
  
  巻: - ページ: 128-131
- 謝辞記載あり
[学会発表] カオスニューラルネットを用いた強化学習における高次探索の創発2016
- 著者名/発表者名
  後藤祐樹，柴田克成
- 学会等名
  第32回計測自動制御学会九州支部学術講演会
- 発表場所
  佐賀大学（佐賀県佐賀市）
- 年月日
  2016-11-26 – 2016-11-27
[学会発表] カオスニューラルネットの内部ダイナミクスを利用した記憶タスクの報酬に基づく学習2016
- 著者名/発表者名
  松木俊貴，柴田克成
- 学会等名
  第32回計測自動制御学会九州支部学術講演会
- 発表場所
  佐賀大学（佐賀県佐賀市）
- 年月日
  2016-11-26 – 2016-11-27
[学会発表] BPWT を用いたリカレントネットの教師あり学習における相互結合部の重み値の影響2016
- 著者名/発表者名
  山本一真，柴田克成
- 学会等名
  第32回計測自動制御学会九州支部学術講演会
- 発表場所
  佐賀大学（佐賀県佐賀市）
- 年月日
  2016-11-26 – 2016-11-27
[学会発表] Emergence of Higher Exploration in Reinforcement Learning Using a Chaotic Neural Network2016
- 著者名/発表者名
  Yuki Goto and Katsunari Shibata
- 学会等名
  Int'l Conf. on Neural Information Processing (ICONIP) 2016
- 発表場所
  Kyoto University (Kyoto, Japan)
- 年月日
  2016-10-16 – 2016-10-21
- 国際学会
[学会発表] Reward-Based Learning of a Memory-Required Task Based on the Internal Dynamics of a Chaotic Neural Network2016
- 著者名/発表者名
  Toshitaka Matsuki and Katsunari Shibata
- 学会等名
  Int'l Conf. on Neural Information Processing (ICONIP) 2016
- 発表場所
  Kyoto University (Kyoto, Japan)
- 年月日
  2016-10-16 – 2016-10-21
- 国際学会

2016 年度 実施状況報告書

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

研究代表者

柴田 克成 大分大学, 工学部, 准教授 (10260522)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] 深層学習が示唆するend-to-end強化学習に基づく機能創発アプローチの重要性と 思考の創発に向けたカオスニューラルネットを用いた新しい強化学習2017

著者名/発表者名

雑誌名

[雑誌論文] Emergence of Higher Exploration in Reinforcement Learning Using a Chaotic Neural Network2016

著者名/発表者名

雑誌名

DOI

[雑誌論文] Reward-Based Learning of a Memory-Required Task Based on the Internal Dynamics of a Chaotic Neural Network2016

著者名/発表者名

雑誌名

DOI

[雑誌論文] カオスニューラルネットを用いた強化学習における高次探索の創発2016

著者名/発表者名

雑誌名

[雑誌論文] カオスニューラルネットの内部ダイナミクスを利用した記憶タスクの報酬に基づく学習2016

著者名/発表者名

雑誌名

[雑誌論文] BPWT を用いたリカレントネットの教師あり学習における相互結合部の重み値の影響2016

著者名/発表者名

雑誌名

[学会発表] カオスニューラルネットを用いた強化学習における高次探索の創発2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] カオスニューラルネットの内部ダイナミクスを利用した記憶タスクの報酬に基づく学習2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] BPWT を用いたリカレントネットの教師あり学習における相互結合部の重み値の影響2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Emergence of Higher Exploration in Reinforcement Learning Using a Chaotic Neural Network2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Reward-Based Learning of a Memory-Required Task Based on the Internal Dynamics of a Chaotic Neural Network2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実施状況報告書

柴田克成大分大学, 工学部, 准教授 (10260522)

[雑誌論文] 深層学習が示唆するend-to-end強化学習に基づく機能創発アプローチの重要性と思考の創発に向けたカオスニューラルネットを用いた新しい強化学習2017