研究概要 |
ペットロボット等のように, 小型でリソースの限られる自律型ロボットに強化学習や推論を行わせる場合は, リソースの制限を考慮に入れて適切な学習手法を選択する必要が有る. 神経回路などのモデルベース学習手法を使用すると, テーブルルックアップ手法等のように全事例記憶型の学習手法に比べて少ないパラメータ数で実現できるため, 小型ロボットには有効である. これまでにもロボットの学習エンジンとして関数近似型の神経回路を用いてセンサー情報からアクションへの一方向のみの学習を行わせる研究は数多く有った. しかし, 人間のように過去のエピソードをもとにあらゆる種類のゴールを実現するアクションを求めるためには, 関数近似型のネットワークでは実現できない場合が有る. そこで本研究では, 連想メモリーを構築してこれを実現することを目指す. これを実現するにあたって連想メモリに要求される能力は, 1)少ないリソースで多くのエピソードを記憶できること. 2)エピソードの一部の情報から類推によって推論が行えること. 3)追加学習をサポートすること. である. この一環として本年度は次の3つを行った. 1. 昨年度提案した, 速い学習と遅い学習を組み合わせた追加学習法の弱点であった, 遅い学習とモデル選択手法に改良を加え, 高次元データに対する安定性を向上させた. またこれを連想メモリに拡張するべく, Generalized Radial Basis Function(GRBF)による恒等写像型ネットワークへの適用を試みた. 2. 連想メモリーとして, 3層の恒等写像型ネットワークを使った前向き, 後向き推論手法を考案し, その動作を確認した. ただし現段階では連想メモリーの学習はoff-lineであり, 追加学習をサポートしていない. 3. 条件反射を使った推論の高速化の研究の一つとして, メタ学習を用いた最適化問題の高速解法の研究も行った. ここでは推論を最適化問題の一つとみなし, 神経回路の追加学習におけるパラメータの決定問題に置き換えて研究した. すなわち, 新しい追加サンプルが与えられると過去の記憶を保持しつつ新しい学習サンプルに適応する荷重パラメータを条件反射的に一撃で局所最適解の近くまで移動させ, 残りは小数回の勾配法の適用によって局所最適解に導くというものである. これを行うに当たって, 神経回路としてRadial Basis Function(RBF)選び, 核関数の中心位置と分散を固定するという制限を設けて問題を簡単化した. そしてこのRBFの追加学習戦略をメタ学習ネットワークによって学習させ, 上記のような高速な学習を実現した.
|