2015 Fiscal Year Research-status Report

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

Research Project

Project/Area Number	15K00360
Research Institution	Oita University
Principal Investigator	柴田克成大分大学, 工学部, 准教授 (10260522)
Project Period (FY)	2015-04-01 – 2020-03-31
Keywords	カオスニューラルネット / 強化学習 / 符号付き因果トレース / 高次探索 / 障害物回避
Outline of Annual Research Achievements	本研究は，外部からの乱数付加なしでカオスニューラルネット(ＮＮ)の内部ダイナミクスによる探索を利用する全く新しいタイプの強化学習を「原始思考」実現の柱としている。昨年度は，本学習が単純な目標物到達タスク以外のタスクでも学習できるかの確認と，学習当初のランダムに近い探索行動から，「原始思考」の前段階と位置付け，学習を反映したより効率の良い「高次探索」が実現できるかの確認を目指し，ロボットが障害物を避けて目標物に到達するタスクの学習に適用した。連続動作可能なActor-Critic型の強化学習で，ActorをカオスＮＮで構成し，目標物，障害物それぞれの相対的な距離情報１つと向きの情報２つの計６個の信号を入力し，ロボット，障害物の位置を毎試行ランダムに設定してシミュレーションを行った。その結果，当初カオスダイナミクスに基づく探索的な行動をしていたロボットが，徐々に障害物を避けて目標物に向かうようになり，それとともに，リヤプノフ指数も下がってくることを確認した。ただし，さらに学習を進めると，リヤプノフ指数がさらに下がり，障害物にトラップされて目標物への到達が遅くなる傾向が見られた。また，ロボットが障害物の手前で，その障害物の右側を通って目標物に向かう領域と，左側を通って向かう領域の境界付近に置かれた場合，ロボットの位置の少しの変化によって障害物の右側を通るか左側を通るかが様々に変化し，あたかもランダムな選択をしているように見える一方，完全に障害物にトラップされて動けなくなることがないことを確認し，「高次探索」と呼べるものと考えている。また，ランダムに決めているカオスＮＮの相互結合の重み値の大きさを変化させると，小さ過ぎるとカオス性が減少して学習ができなくなり，逆に，大き過ぎてもニューロンの出力が飽和して値域の上限や下限にはりついて学習のパフォーマンスが下がることが観察された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 提案している，全く新しい形の「符号付き因果トレース」を利用した，カオスニューラルネットのカオスダイナミクスに基づく探索を利用した強化学習が，「障害物回避タスク」という別のやや難しいタスクでも有効であることを確認することができ，本手法が汎用的に利用できる可能性が高まったことが一つの理由である。また，上記の「実績の概要」でも述べたように，われわれが分かれ道で右に行くか左に行くかの選択をするように，障害物の手前で，単にモータのレベルで乱数に近い動きをして探索するのではなく，学習を通して，「障害物にぶつかって動けなくなっては意味がないが，右を抜けるか，左を抜けるかの選択の余地が残っている」ことを把握し，ちょっとした場所の変化で右から抜けたり，左から抜けたりする領域があることが確認できた。本研究では，カオスダイナミクスによる「探索」から学習によって獲得された合目的性や因果関係を反映した結果が「思考」であると考え，昨年度の成果は，その途中の段階として位置づけた「高次探索」が確認できたと考えており，本研究の最終目的である「原始思考」創発の可能性を大きく高めることができたことは予想以上の成果である。しかしながら，行ったタスクが，以前行ったタスクとセンサ入力が異なっていて，かつ，障害物が入って少し難しいものになっているものの，「記憶が不要な目標物到達」という意味で似たタスクであり，もう少し違った種類のタスクでの確認が必要である。それから，カオスニューラルネットを用いた学習の有用性が外部の研究でも明らかになっているが，それを「思考」にまで結びつけるためには，従来成果を残してきて，Deep Learningでも大きな成果が出ている誤差伝播型の学習との融合が必須であると考えられる。しかし，現時点では両者の融合に道筋が見えず，大きな壁があるため，「おおむね順調」とした。
Strategy for Future Research Activity	筆者は，最近になって，Sussilloらのカオスニューラルネットを用いた教師あり学習である Force Learning （論文自体は2009年にすでに出されている）が，単にカオスニューラルネットへのフィードバック結合を持つ出力部分の重み値を学習させるだけで，従来型のリカレントネットの誤差伝搬に基づいた学習と比較して，時系列パターン生成の学習に非常に大きな力を発揮することがわかった。本研究とは「カオスニューラルネット」を用いて学習するという意味で非常に共通性が高く，従来の通常のリカレントネットの学習の問題点が大きく改善される可能性がある。本年は，まず，昨年度行ったタスクのロボットを「車輪型」に変えるとともに，記憶が必要なタスクの学習にチャレンジし，その解析をじっくりと行っていきたい。また，本研究の当初の予定とは少し外れるが，前述のForce Learningに関連した研究にも取り組みたい。具体的には，時系列パターン生成に非常に有用であることは確認できたが，時系列パターン認識に対する学習能力をまずは教師あり学習を中心に検証する。さらに，空間パターン認識問題にも適用し，やはり従来型の誤差伝搬型の学習が有効ではないかとの現時点での認識を確認するとともに，両者のメリットを取り込むための方法を考えていきたい。さらに，Hoerzerらの研究では，Force Learning の教師あり学習を報酬ベースの学習として捉えた場合の学習方法について示している。これは，カオスニューラルネットを用いた報酬ベースの学習ということであり，本研究で提案している手法と近いものであるが，本研究で用いている「符号付き因果トレース」は使っていない。そこで，両者の共通点と相違点を分析することで，カオスニューラルネットを用いた強化学習の本質として何が重要なのかを探るとともに，どういう場合にどういう学習をするのが良いのかを探っていきたい。
Causes of Carryover	使用に端数が残ったため，無理に使用するより，次年度分と合算して使用した方が有効に使用できると判断したため。
Expenditure Plan for Carryover Budget	本年度の物品費と合わせて，多脚ロボットの購入費用に充てる予定である。

Research Products
(4 results)

All 2015

All Journal Article (2 results) (of which Peer Reviewed: 1 results, Acknowledgement Compliant: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Reinforcement Learning with Internal-Dynamics-based Exploration Using a Chaotic Neural Network2015
- Author(s)
  Katsunari Shibata and Yuta Sakashita
- Journal Title
  
  Proc. of Int'l Joint Conf. on Neural Networks (IJCNN)2015
  
  Volume: - Pages: #15231 (CD-ROM)
- Peer Reviewed / Acknowledgement Compliant
[Journal Article] 動的ニューロンモデルを用いたニューラルネットワークへの因果トレースの適用2015
- Author(s)
  山本一真，柴田克成
- Journal Title
  
  第２５回インテリジェント・システム・シンポジウム論文集
  
  Volume: - Pages: 136-141
[Presentation] 動的ニューロンモデルを用いたニューラルネットへの因果トレースの適用2015
- Author(s)
  山本一真，柴田克成
- Organizer
  第２５回インテリジェント・システム・シンポジウム (FAN2015)
- Place of Presentation
  東北大学 (宮城県，仙台市)
- Year and Date
  2015-09-25
[Presentation] Reinforcement Learning with Internal-Dynamics-based Exploration Using a Chaotic Neural Network2015
- Author(s)
  Katsunari Shibata and Yuta Sakashita
- Organizer
  Int'l Joint Conf. on Neural Networks (IJCNN) 2015
- Place of Presentation
  Killarney Convention Center (Ireland, Killarney)
- Year and Date
  2015-07-13
- Int'l Joint Research

2015 Fiscal Year Research-status Report

「探索」から「思考」へ－強化学習によるカオスニューラルネットダイナミクスの発達

Principal Investigator

柴田 克成 大分大学, 工学部, 准教授 (10260522)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Reinforcement Learning with Internal-Dynamics-based Exploration Using a Chaotic Neural Network2015

Author(s)

Journal Title

[Journal Article] 動的ニューロンモデルを用いたニューラルネットワークへの因果トレースの適用2015

Author(s)

Journal Title

[Presentation] 動的ニューロンモデルを用いたニューラルネットへの因果トレースの適用2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Reinforcement Learning with Internal-Dynamics-based Exploration Using a Chaotic Neural Network2015

Author(s)

Organizer

Place of Presentation

Year and Date

柴田克成大分大学, 工学部, 准教授 (10260522)