2018 Fiscal Year Research-status Report

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

Research Project

Project/Area Number	15K00360
Research Institution	Oita University
Principal Investigator	柴田克成大分大学, 理工学部, 准教授 (10260522)
Project Period (FY)	2015-04-01 – 2020-03-31
Keywords	カオスニューラルネット / 強化学習 / 決定論的探索 / 内部ダイナミクス / カオス生成・維持学習
Outline of Annual Research Achievements	カオスニューラルネットの内部ダイナミクスによって決定論的探索を行う新しい強化学習において，従来の強化学習と同様に，強化学習に基づいて生成する教師信号によってニューラルネット(NN)を学習させる方法を提案したが，従来型の強化学習と同等の性能を得られなかった。これに対し，従来型の強化学習と異なる以下の２点の影響を，簡単で実績のある階層型NNを用いた物体到達タスクの強化学習をプラットフォームとし，カオスによる決定論的探索を乱数による確率的探索に置き換えた上で調べ，以下のことがわかった。 (1) 教師信号の生成法　新しい強化学習では探索成分を含む動作そのものとTD誤差との積を教師信号に用いる。これを従来の探索成分とTD誤差の積を教師信号に用いた場合と比較すると，動作(Actor)出力が学習によって大きくなるにつれ，学習できていたものが一旦悪化する現象が見られた。しかし，その後は再び学習した。 (2) 探索が行われる場所　新しい強化学習では，探索成分はNN内部で生成される。これを動作出力決定後に探索を行う従来法と比較した。その結果，中間層ニューロンの出力の飽和特性により，出力が大きくなると探索が十分にできない場合があることがわかった。また，これと並行し，リカレントニューラルネット(RNN)の各ニューロンが入力の微小変化に対する出力の変化の割合が大きい方が良いという評価関数に基づいて学習をすることで，ネットワークが自律的に適度なカオス性を生成，維持する方法を提案した。そして，実際に，全ての結合重み値を０としたRNNが，初期の段階で間欠的に微小なノイズを各ニューロンに載せるだけで，学習に基づいて，RNNがカオスダイナミクスを生成するようになった。ただし，各ニューロンの重み値の大きさが学習とともに大きくなり，出力もほとんど飽和領域の値しか取らなくなるという問題点があることがわかった。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 現在まで，カオスニューラルネットを用いた新しい強化学習を実現するための学習方法として，「因果トレースを用いる方法」と「教師信号を生成して誤差逆伝播を用いる方法」の２つの方法を提案してきた。しかし，前者はリカレント部の学習がうまくできない，後者は十分な学習性能が得られていない，といずれも問題点があって学習方法の確立に至っていない。この研究は，長年使われ，現在大きく注目を集めている強化学習の学習方法を根本的に転換させるものであり，壁にぶつかることは十分想定されたものである。しかし，研究実績の概要で述べたように，次第に問題点が明らかになってきているものの，それらの問題点を根本的に解決する手法については現時点でも明確な目処が立っておらず，まとまった成果を論文としてまとめられていないのが実情である。したがって，当初の予定からすると遅れていると言わざるを得ない。しかしその一方で，本研究を通してわかった，学習時の適度なカオス性の生成，維持の重要性の観点から，それを実現する新たな学習方法を提案し，全く結合が0 の状態のリカレントネットから学習によってカオスダイナミクスを発生させ，かつあまりカオス性が大きくならない状態を維持することができる可能性のある枠組みを提示できたことは大きな進歩である。この学習は，各ニューロンがローカルな情報のみで学習でき，かつ，入力信号の変化を出力に伝えやすくするという非常に汎用的な学習方法で実現しており，カオスの生成・維持のみならず，ディープなニューラルネットの学習における信号の伝搬と誤差信号の逆伝搬をともに確保するという方向への拡張も期待できる。以上を総合的に考え，当初の予定の達成に目処が立っていないことを重視し，「やや遅れている」と判断した。
Strategy for Future Research Activity	本研究の最後の１年においては，カオスニューラルネット(ChNN)を用いた新しい強化学習の学習方法の確立に向けた研究を引き続き行う一方で，強化学習の学習方法が確立できていない現状において，本学習が「思考創発」に有効であることを教師あり学習の観点から示すとともに，新たに提案したカオス生成・維持学習を強化学習の中で実際に使っていくことと，深層学習での勾配消失問題の解決への可能性を探っていきたい。 (1)学習方法の解決の糸口をつかむ　　学習させるタスクを変えて従来型と比較した結果を観察し，問題点が生じる根本的な原因の解明に努め，解決の糸口を見つける努力をしていきたい。 (2)カオスニューラルネット(ChNN)の教師あり学習　ChNNをBPTT(Error Back Propagation Through Time)で教師あり学習させ，問題点（誤差信号の発散などが想定される）の洗い出しを行うとともに，ChNNを使うことで，カウンタータスクによって内部状態の遷移の学習が容易になることを示す。さらに，カオス的遍歴のようなダイナミクスが学習によって形成されることを示し，ChNNを学習することで「思考」のダイナミクスが形成できる可能性を示したい。誤差信号の発散問題が起こった場合については，誤差信号の伝搬に，出力計算時と同様に非線形関数を通して信号の発散を防ぐ方法の有効性を調べる。 (3) カオスの生成・維持学習と強化学習の同時学習　　カオスの生成・維持学習と強化学習を並列に行い，ChNNでないリカレントネットでも，学習によってカオスダイナミクスを生成し，それによってエージェントが探索して簡単なタスクの学習ができることを示す。 (4) カオス生成・維持学習の拡張　カオス生成・維持学習をディープなニューラルネットの学習に適用し，勾配消失問題の解決につながることを示したい。
Causes of Carryover	海外の国際会議での発表に必要な費用が，当初予定より下回ったため。翌年度分と合わせ，主に成果発表のために用いる。

Research Products
(7 results)

All 2019 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results) (of which Int'l Joint Research: 2 results, Invited: 1 results)

[Journal Article] Chaos-Based Reinforcement Learning When Introducing Refractoriness in Each Neuron2019
- Author(s)
  Katsuki Sato and Katsunari Shibata
- Journal Title
  
  In: Kim JH., Myung H., Lee SM. (eds) Robot Intelligence Technology and Applications. RiTA 2018. Communications in Computer and Information Science
  
  Volume: 1015 Pages: -
- DOI
  https://doi.org/10.1007/978-981-13-7780-8_7
- Peer Reviewed
[Journal Article] Reinforcement Learning of a Memory Task Using an Echo State Network with Multi-layer Readout2018
- Author(s)
  Matsuki Toshitaka、Shibata Katsunari
- Journal Title
  
  In: Kim JH. et al. (eds) Robot Intelligence Technology and Applications 5. RiTA 2017. Advances in Intelligent Systems and Computing
  
  Volume: 751 Pages: 17～26
- DOI
  https://doi.org/10.1007/978-3-319-78452-6_2
- Peer Reviewed
[Presentation] End-to-End強化学習による知能創発と「思考」創発へ向けた新しい強化学習2018
- Author(s)
  柴田克成
- Organizer
  第62回システム制御情報学会研究発表講演会
- Invited
[Presentation] Learning Time Constant of Continuous-Time Neurons with Gradient Descent2018
- Author(s)
  Toshitaka Matsuki & Katsunari Shibata
- Organizer
  The 6th Int'l Conf. on Robot Intelligent Technology and Applications
- Int'l Joint Research
[Presentation] Chaos-based Reinforcement Learning when Introducing Refractoriness in Each Neuron2018
- Author(s)
  Katsuki Sato & Katsunari Shibata
- Organizer
  The 6th Int'l Conf. on Robot Intelligent Technology and Applications
- Int'l Joint Research
[Presentation] 勾配法による動的なニューロンモデルの時定数の学習2018
- Author(s)
  松木俊貴，柴田克成
- Organizer
  第37回計測自動制御学会九州支部学術講演会
[Presentation] カオスベース強化学習への誤差逆伝播法の適用2018
- Author(s)
  佐藤克樹，柴田克成
- Organizer
  第37回計測自動制御学会九州支部学術講演会

2018 Fiscal Year Research-status Report

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

Principal Investigator

柴田 克成 大分大学, 理工学部, 准教授 (10260522)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Chaos-Based Reinforcement Learning When Introducing Refractoriness in Each Neuron2019

Author(s)

Journal Title

DOI

[Journal Article] Reinforcement Learning of a Memory Task Using an Echo State Network with Multi-layer Readout2018

Author(s)

Journal Title

DOI

[Presentation] End-to-End強化学習による知能創発と「思考」創発へ向けた新しい強化学習2018

Author(s)

Organizer

[Presentation] Learning Time Constant of Continuous-Time Neurons with Gradient Descent2018

Author(s)

Organizer

[Presentation] Chaos-based Reinforcement Learning when Introducing Refractoriness in Each Neuron2018

Author(s)

Organizer

[Presentation] 勾配法による動的なニューロンモデルの時定数の学習2018

Author(s)

Organizer

[Presentation] カオスベース強化学習への誤差逆伝播法の適用2018

Author(s)

Organizer

柴田克成大分大学, 理工学部, 准教授 (10260522)