研究課題/領域番号 |
15K00360
|
研究機関 | 大分大学 |
研究代表者 |
柴田 克成 大分大学, 工学部, 准教授 (10260522)
|
研究期間 (年度) |
2015-04-01 – 2020-03-31
|
キーワード | カオスニューラルネット / 強化学習 / 符号付き因果トレース / 高次探索 / 障害物回避 |
研究実績の概要 |
本研究は,外部からの乱数付加なしでカオスニューラルネット(NN)の内部ダイナミクスによる探索を利用する全く新しいタイプの強化学習を「原始思考」実現の柱としている。昨年度は,本学習が単純な目標物到達タスク以外のタスクでも学習できるかの確認と,学習当初のランダムに近い探索行動から,「原始思考」の前段階と位置付け,学習を反映したより効率の良い「高次探索」が実現できるかの確認を目指し,ロボットが障害物を避けて目標物に到達するタスクの学習に適用した。連続動作可能なActor-Critic型の強化学習で,ActorをカオスNNで構成し,目標物,障害物それぞれの相対的な距離情報1つと向きの情報2つの計6個の信号を入力し,ロボット,障害物の位置を毎試行ランダムに設定してシミュレーションを行った。 その結果,当初カオスダイナミクスに基づく探索的な行動をしていたロボットが,徐々に障害物を避けて目標物に向かうようになり,それとともに,リヤプノフ指数も下がってくることを確認した。ただし,さらに学習を進めると,リヤプノフ指数がさらに下がり,障害物にトラップされて目標物への到達が遅くなる傾向が見られた。また,ロボットが障害物の手前で,その障害物の右側を通って目標物に向かう領域と,左側を通って向かう領域の境界付近に置かれた場合,ロボットの位置の少しの変化によって障害物の右側を通るか左側を通るかが様々に変化し,あたかもランダムな選択をしているように見える一方,完全に障害物にトラップされて動けなくなることがないことを確認し,「高次探索」と呼べるものと考えている。 また,ランダムに決めているカオスNNの相互結合の重み値の大きさを変化させると,小さ過ぎるとカオス性が減少して学習ができなくなり,逆に,大き過ぎてもニューロンの出力が飽和して値域の上限や下限にはりついて学習のパフォーマンスが下がることが観察された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
提案している,全く新しい形の「符号付き因果トレース」を利用した,カオスニューラルネットのカオスダイナミクスに基づく探索を利用した強化学習が,「障害物回避タスク」という別のやや難しいタスクでも有効であることを確認することができ,本手法が汎用的に利用できる可能性が高まったことが一つの理由である。 また,上記の「実績の概要」でも述べたように,われわれが分かれ道で右に行くか左に行くかの選択をするように,障害物の手前で,単にモータのレベルで乱数に近い動きをして探索するのではなく,学習を通して,「障害物にぶつかって動けなくなっては意味がないが,右を抜けるか,左を抜けるかの選択の余地が残っている」ことを把握し,ちょっとした場所の変化で右から抜けたり,左から抜けたりする領域があることが確認できた。本研究では,カオスダイナミクスによる「探索」から学習によって獲得された合目的性や因果関係を反映した結果が「思考」であると考え,昨年度の成果は,その途中の段階として位置づけた「高次探索」が確認できたと考えており,本研究の最終目的である「原始思考」創発の可能性を大きく高めることができたことは予想以上の成果である。 しかしながら,行ったタスクが,以前行ったタスクとセンサ入力が異なっていて,かつ,障害物が入って少し難しいものになっているものの,「記憶が不要な目標物到達」という意味で似たタスクであり,もう少し違った種類のタスクでの確認が必要である。それから,カオスニューラルネットを用いた学習の有用性が外部の研究でも明らかになっているが,それを「思考」にまで結びつけるためには,従来成果を残してきて,Deep Learningでも大きな成果が出ている誤差伝播型の学習との融合が必須であると考えられる。しかし,現時点では両者の融合に道筋が見えず,大きな壁があるため,「おおむね順調」とした。
|
今後の研究の推進方策 |
筆者は,最近になって,Sussilloらのカオスニューラルネットを用いた教師あり学習である Force Learning (論文自体は2009年にすでに出されている)が,単にカオスニューラルネットへのフィードバック結合を持つ出力部分の重み値を学習させるだけで,従来型のリカレントネットの誤差伝搬に基づいた学習と比較して,時系列パターン生成の学習に非常に大きな力を発揮することがわかった。本研究とは「カオスニューラルネット」を用いて学習するという意味で非常に共通性が高く,従来の通常のリカレントネットの学習の問題点が大きく改善される可能性がある。 本年は,まず,昨年度行ったタスクのロボットを「車輪型」に変えるとともに,記憶が必要なタスクの学習にチャレンジし,その解析をじっくりと行っていきたい。また,本研究の当初の予定とは少し外れるが,前述のForce Learningに関連した研究にも取り組みたい。具体的には,時系列パターン生成に非常に有用であることは確認できたが,時系列パターン認識に対する学習能力をまずは教師あり学習を中心に検証する。さらに,空間パターン認識問題にも適用し,やはり従来型の誤差伝搬型の学習が有効ではないかとの現時点での認識を確認するとともに,両者のメリットを取り込むための方法を考えていきたい。 さらに,Hoerzerらの研究では,Force Learning の教師あり学習を報酬ベースの学習として捉えた場合の学習方法について示している。これは,カオスニューラルネットを用いた報酬ベースの学習ということであり,本研究で提案している手法と近いものであるが,本研究で用いている「符号付き因果トレース」は使っていない。そこで,両者の共通点と相違点を分析することで,カオスニューラルネットを用いた強化学習の本質として何が重要なのかを探るとともに,どういう場合にどういう学習をするのが良いのかを探っていきたい。
|
次年度使用額が生じた理由 |
使用に端数が残ったため,無理に使用するより,次年度分と合算して使用した方が有効に使用できると判断したため。
|
次年度使用額の使用計画 |
本年度の物品費と合わせて,多脚ロボットの購入費用に充てる予定である。
|