本研究は環境探査のための強化学習アルゴリズムを開発することを目的としている。本年度は以下の成果を得た。 (1) 適応的多重重点サンプリングによる経験の再利用: 方策探査法は多くのアルゴリズムが方策オン型であり過去の経験を再利用するためには重点サンプリングを用いた補正が必要になるが、単純な重点サンプリングの使用は学習を不安定化させる.そこで重点サンプリングによる推定値の分散を最小にするように過去のデータ収集分布の結合重みを修正する適応的重点サンプリング法を開発し、5種類の方策探査法に適用しデータ効率が改善できることを示した。 (2) 環境探査のための報酬の符号の分離: 報酬値を符号に応じて分離する強化学習法MaxPainを深層強化学習化したDeep MaxPainを開発した.Deep MaxPainは最下層の畳み込み層は共有するが価値関数を学習する全結合層は独立している。そのため正の報酬から学習するための経験と負の報酬から学習するための経験を個別に保存し、学習時に同じ重みで混合することで学習が安定になり、ニューラルネットワークを用いた関数近似とMaxPainを統合することに成功した。 (3) スマートフォンロボットを用いた自律分散協調ロボットシステムの開発: 強化学習のメタパラメータの影響を調査するためには、メタパラメータの値の異なる学習システムを並列に実行し学習過程を比較する方法が有効である。また、実ロボットにおける学習のサンプル効率を改善するために、複数学習システムのためのアルゴリズムの開発が重要で、検証のためにロボット実験システムを改良した。本年度は実ロボット上で外部バッテリからの充電行動、および交配行動実現のためのロボット間での視覚情報を通した情報交換の行動を方策探査法によって実現した。
|