2018 年度実施状況報告書

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

研究課題

研究課題/領域番号	15K00360
研究機関	大分大学
研究代表者	柴田克成大分大学, 理工学部, 准教授 (10260522)
研究期間 (年度)	2015-04-01 – 2020-03-31
キーワード	カオスニューラルネット / 強化学習 / 決定論的探索 / 内部ダイナミクス / カオス生成・維持学習
研究実績の概要	カオスニューラルネットの内部ダイナミクスによって決定論的探索を行う新しい強化学習において，従来の強化学習と同様に，強化学習に基づいて生成する教師信号によってニューラルネット(NN)を学習させる方法を提案したが，従来型の強化学習と同等の性能を得られなかった。これに対し，従来型の強化学習と異なる以下の２点の影響を，簡単で実績のある階層型NNを用いた物体到達タスクの強化学習をプラットフォームとし，カオスによる決定論的探索を乱数による確率的探索に置き換えた上で調べ，以下のことがわかった。 (1) 教師信号の生成法　新しい強化学習では探索成分を含む動作そのものとTD誤差との積を教師信号に用いる。これを従来の探索成分とTD誤差の積を教師信号に用いた場合と比較すると，動作(Actor)出力が学習によって大きくなるにつれ，学習できていたものが一旦悪化する現象が見られた。しかし，その後は再び学習した。 (2) 探索が行われる場所　新しい強化学習では，探索成分はNN内部で生成される。これを動作出力決定後に探索を行う従来法と比較した。その結果，中間層ニューロンの出力の飽和特性により，出力が大きくなると探索が十分にできない場合があることがわかった。また，これと並行し，リカレントニューラルネット(RNN)の各ニューロンが入力の微小変化に対する出力の変化の割合が大きい方が良いという評価関数に基づいて学習をすることで，ネットワークが自律的に適度なカオス性を生成，維持する方法を提案した。そして，実際に，全ての結合重み値を０としたRNNが，初期の段階で間欠的に微小なノイズを各ニューロンに載せるだけで，学習に基づいて，RNNがカオスダイナミクスを生成するようになった。ただし，各ニューロンの重み値の大きさが学習とともに大きくなり，出力もほとんど飽和領域の値しか取らなくなるという問題点があることがわかった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由現在まで，カオスニューラルネットを用いた新しい強化学習を実現するための学習方法として，「因果トレースを用いる方法」と「教師信号を生成して誤差逆伝播を用いる方法」の２つの方法を提案してきた。しかし，前者はリカレント部の学習がうまくできない，後者は十分な学習性能が得られていない，といずれも問題点があって学習方法の確立に至っていない。この研究は，長年使われ，現在大きく注目を集めている強化学習の学習方法を根本的に転換させるものであり，壁にぶつかることは十分想定されたものである。しかし，研究実績の概要で述べたように，次第に問題点が明らかになってきているものの，それらの問題点を根本的に解決する手法については現時点でも明確な目処が立っておらず，まとまった成果を論文としてまとめられていないのが実情である。したがって，当初の予定からすると遅れていると言わざるを得ない。しかしその一方で，本研究を通してわかった，学習時の適度なカオス性の生成，維持の重要性の観点から，それを実現する新たな学習方法を提案し，全く結合が0 の状態のリカレントネットから学習によってカオスダイナミクスを発生させ，かつあまりカオス性が大きくならない状態を維持することができる可能性のある枠組みを提示できたことは大きな進歩である。この学習は，各ニューロンがローカルな情報のみで学習でき，かつ，入力信号の変化を出力に伝えやすくするという非常に汎用的な学習方法で実現しており，カオスの生成・維持のみならず，ディープなニューラルネットの学習における信号の伝搬と誤差信号の逆伝搬をともに確保するという方向への拡張も期待できる。以上を総合的に考え，当初の予定の達成に目処が立っていないことを重視し，「やや遅れている」と判断した。
今後の研究の推進方策	本研究の最後の１年においては，カオスニューラルネット(ChNN)を用いた新しい強化学習の学習方法の確立に向けた研究を引き続き行う一方で，強化学習の学習方法が確立できていない現状において，本学習が「思考創発」に有効であることを教師あり学習の観点から示すとともに，新たに提案したカオス生成・維持学習を強化学習の中で実際に使っていくことと，深層学習での勾配消失問題の解決への可能性を探っていきたい。 (1)学習方法の解決の糸口をつかむ　　学習させるタスクを変えて従来型と比較した結果を観察し，問題点が生じる根本的な原因の解明に努め，解決の糸口を見つける努力をしていきたい。 (2)カオスニューラルネット(ChNN)の教師あり学習　ChNNをBPTT(Error Back Propagation Through Time)で教師あり学習させ，問題点（誤差信号の発散などが想定される）の洗い出しを行うとともに，ChNNを使うことで，カウンタータスクによって内部状態の遷移の学習が容易になることを示す。さらに，カオス的遍歴のようなダイナミクスが学習によって形成されることを示し，ChNNを学習することで「思考」のダイナミクスが形成できる可能性を示したい。誤差信号の発散問題が起こった場合については，誤差信号の伝搬に，出力計算時と同様に非線形関数を通して信号の発散を防ぐ方法の有効性を調べる。 (3) カオスの生成・維持学習と強化学習の同時学習　　カオスの生成・維持学習と強化学習を並列に行い，ChNNでないリカレントネットでも，学習によってカオスダイナミクスを生成し，それによってエージェントが探索して簡単なタスクの学習ができることを示す。 (4) カオス生成・維持学習の拡張　カオス生成・維持学習をディープなニューラルネットの学習に適用し，勾配消失問題の解決につながることを示したい。
次年度使用額が生じた理由	海外の国際会議での発表に必要な費用が，当初予定より下回ったため。翌年度分と合わせ，主に成果発表のために用いる。

研究成果
(7件)

すべて 2019 2018

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (5件) (うち国際学会 2件、招待講演 1件)

[雑誌論文] Chaos-Based Reinforcement Learning When Introducing Refractoriness in Each Neuron2019
- 著者名/発表者名
  Katsuki Sato and Katsunari Shibata
- 雑誌名
  
  In: Kim JH., Myung H., Lee SM. (eds) Robot Intelligence Technology and Applications. RiTA 2018. Communications in Computer and Information Science
  
  巻: 1015 ページ: -
- DOI
  https://doi.org/10.1007/978-981-13-7780-8_7
- 査読あり
[雑誌論文] Reinforcement Learning of a Memory Task Using an Echo State Network with Multi-layer Readout2018
- 著者名/発表者名
  Matsuki Toshitaka、Shibata Katsunari
- 雑誌名
  
  In: Kim JH. et al. (eds) Robot Intelligence Technology and Applications 5. RiTA 2017. Advances in Intelligent Systems and Computing
  
  巻: 751 ページ: 17～26
- DOI
  https://doi.org/10.1007/978-3-319-78452-6_2
- 査読あり
[学会発表] End-to-End強化学習による知能創発と「思考」創発へ向けた新しい強化学習2018
- 著者名/発表者名
  柴田克成
- 学会等名
  第62回システム制御情報学会研究発表講演会
- 招待講演
[学会発表] Learning Time Constant of Continuous-Time Neurons with Gradient Descent2018
- 著者名/発表者名
  Toshitaka Matsuki & Katsunari Shibata
- 学会等名
  The 6th Int'l Conf. on Robot Intelligent Technology and Applications
- 国際学会
[学会発表] Chaos-based Reinforcement Learning when Introducing Refractoriness in Each Neuron2018
- 著者名/発表者名
  Katsuki Sato & Katsunari Shibata
- 学会等名
  The 6th Int'l Conf. on Robot Intelligent Technology and Applications
- 国際学会
[学会発表] 勾配法による動的なニューロンモデルの時定数の学習2018
- 著者名/発表者名
  松木俊貴，柴田克成
- 学会等名
  第37回計測自動制御学会九州支部学術講演会
[学会発表] カオスベース強化学習への誤差逆伝播法の適用2018
- 著者名/発表者名
  佐藤克樹，柴田克成
- 学会等名
  第37回計測自動制御学会九州支部学術講演会

2018 年度 実施状況報告書

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

研究代表者

柴田 克成 大分大学, 理工学部, 准教授 (10260522)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Chaos-Based Reinforcement Learning When Introducing Refractoriness in Each Neuron2019

著者名/発表者名

雑誌名

DOI

[雑誌論文] Reinforcement Learning of a Memory Task Using an Echo State Network with Multi-layer Readout2018

著者名/発表者名

雑誌名

DOI

[学会発表] End-to-End強化学習による知能創発と「思考」創発へ向けた新しい強化学習2018

著者名/発表者名

学会等名

[学会発表] Learning Time Constant of Continuous-Time Neurons with Gradient Descent2018

著者名/発表者名

学会等名

[学会発表] Chaos-based Reinforcement Learning when Introducing Refractoriness in Each Neuron2018

著者名/発表者名

学会等名

[学会発表] 勾配法による動的なニューロンモデルの時定数の学習2018

著者名/発表者名

学会等名

[学会発表] カオスベース強化学習への誤差逆伝播法の適用2018

著者名/発表者名

学会等名

2018 年度実施状況報告書

柴田克成大分大学, 理工学部, 准教授 (10260522)