研究課題/領域番号 |
15K00360
|
研究機関 | 大分大学 |
研究代表者 |
柴田 克成 大分大学, 工学部, 准教授 (10260522)
|
研究期間 (年度) |
2015-04-01 – 2020-03-31
|
キーワード | 強化学習 / カオスニューラルネット / 障害物回避 / 視覚センサ / カオスニューロン / リザバー / BPWT / 因果トレース |
研究実績の概要 |
本年度は,まず,学習タスクを変えて,ロボットの移動を前後左右ではなく,左右の車輪による移動とし,センサをロボット自身が持つ簡易的な視覚センサとして物体到達タスクが学習できることを確認した。その後,さらに,障害物回避タスクの学習もある程度学習できることを確認した。 また,学習によって中間層ニューロンや出力ニューロンの出力が飽和し,滑らかな動作が実現できない問題に対し,従来のように重み値や出力関数の勾配を大きくしてカオスを発生させる方法から,不応期を持つカオスニューロンを利用する方法へ切り替えた。これによって,出力の飽和がある程度抑えられ,より滑らかな動作が実現できることがわかった。しかし,パラメータの調整が難しく,どのような設定が最適かはまだ見えていない。 それから,リザバーによる複雑なダイナミックパターンの学習能力を最終的に提案手法に取り込むことを想定し,リザバーの出力に対して乱数を付加し,教師信号を直接与えずに,2乗誤差を罰のように与えて学習させるHoerzerらが示した学習に対し,乱数を付加することなくリザバー内部のカオスダイナミクスによる変動を利用して記憶タスクを同様に学習ができることを確認した。また,その際,学習の進行にともなって出力の変動が抑えられるとともに,学習すべき入出力関係を変えて誤差が増えると,外部から指示を与えることなく,カオスダイナミクスによる変動が再び現れて,探索し,再び学習が進むと変動成分が小さくなるといった探索成分の自律的調整機能があることを確認した。 また,因果トレースを使ったBPWT(Back Propagation With Time)による教師あり学習については,セルフフィードバック結合の重み値を大きくするか,動的ニューロンを導入して時定数をある程度大きくすることで,逐次入力を行うEXOR学習がBPTTの場合に近い学習性能になることを確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度は,視覚センサ入力,障害物回避タスクと,学習タスクを変えても提案手法が有効であり,特定のタスクだけではなく,様々なタスクの学習ができる可能性を示すことができた。さらに,リザバー型のネットワークでの強化学習に近い形での学習に対し,乱数を使わずに,内部のカオスダイナミクスによる変動によって学習させることができたことは,リザバー型ネットの学習と提案手法との融合,さらには,誤差信号を明示的に求められる可能性から,誤差逆伝搬型の学習との融合に向けて大きな進歩と言える。
また,因果トレースを使ったBPWTによる教師あり学習では,中間層ニューロン間の結合の初期重み値はランダムではうまくいかないこと,さらにその理由もわかって来ており,それに対し,セルフフィードバックの重み値を大きくするか時定数が大きな動的ニューロンの導入して,出力の時間変化があまり激しくならないようにすることが重要であると考えられる。
本年度はさらに,カオスニューラルネットを用いた強化学習の問題点を解決し,カオスの発生方法や適切なパラメータの設定など,具体的な学習方法を確立し,従来型の外部から乱数を付加する方法と同程度の学習ができるようになることを目指した。不応期を持つカオスニューロンを使う方法を試みて,出力が飽和してしまう問題をある程度解決できたものの,従来型の学習と同程度の学習をするところまでは至っておらず,今後の課題として残った。
|
今後の研究の推進方策 |
カオスニューラルネットを用いた強化学習の方法として現在の因果トレースを用いた方法が最適との保証がないことから,パラメータ調整等の細かいところは少し置いておき,より根本的な学習方法自体を改めて見直していくことに力を入れたい。 今後は,従来,深層学習を含むニューラルネットを用いた学習において大きな成果を残して来た誤差逆伝搬型の学習との融合が一つの大きな課題になると考えている。そこで,前述のリザバー型のニューラルネットで,外部乱数を用いない,内部のカオスダイナミクスを利用した学習をヒントにし,出力の誤差を明示的に与える方法を考える。そして,その誤差信号を,ネットワーク内を逆伝搬させることで,出力部のみではなく,カオスニューラルネットの中間層部分も強化学習によって学習させ,学習がうまくいくか確認し,いかなければその問題点は何かを解明していきたい。 さらに,中間層の相互結合部で何らかの記憶が必要となり,その影響が時間をおいて後ほど必要となるタスクの学習を試み,学習ができるかどうか,そして,相互結合部が学習によってどのように変化しているかを確認し,うまくいかなければその問題点はどこにあるかを探っていきたい。 また,因果トレースを使ったBPWTによる教師あり学習については,動的ニューロンを導入し,時定数を大きくすることで,ゆっくりではあるが複雑なダイナミクスの形成へとつなげていけるかどうかを,逐次EXORよりも難しい問題に適用することで確認していく。
|
次年度使用額が生じた理由 |
本研究に必要な購入予定の計算機が発売されず,また,同様な機能を有する代替機がなかったため。
|
次年度使用額の使用計画 |
平成29年度に当該計算機が発売される見込みであるため,発売され次第その購入に使用する予定である。
|