2014 年度実績報告書

部分観測環境下におけるモデルベース・モデルフリー強化学習の役割分担

公募研究

研究領域	予測と意思決定の脳内計算機構の解明による人間理解と応用
研究課題/領域番号	26120727
研究機関	沖縄科学技術大学院大学
研究代表者	内部英治沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)
研究期間 (年度)	2014-04-01 – 2016-03-31
キーワード	強化学習 / 部分観測環境 / 逆強化学習 / 深層学習
研究実績の概要	強化学習は環境モデルを推定するか否かでモデルベースとモデルフリーに大別できる。環境の状態が完全に観測できる場合、両者は同じ制御則を学習するため、モデルの意味が明確ではなかった。そこで本研究では最新の理論を部分観測問題に拡張する。部分観測問題では両者は異なる制御則を学習するため、モデルの意味はより明確になる。これまでに研究してきた逆強化学習法はモデルフリーであり、学習前後の状態遷移確率の密度比が報酬と価値関数によって表現されていた。本年度はモデルベースの逆強化学習法を導出するために、報酬関するに与える制約を修正した。結果として、学習前後の確率的制御則の密度比が報酬、価値関数と環境のモデルを用いて表現されることを示した。モデルが既知であれば推定するパラメータの次元はモデルベースのほうが非常に小さくなる。この手法をロボット学習問題に適用し、従来の逆強化学習よりも少ないサンプルで効率よく学習できることを確認した。部分観測環境において、システムの状態を推定する問題は過去の観測値の履歴情報を次元圧縮する問題ととらえることができる。考慮する履歴は非常に長くなるため、非線形の特徴抽出法が必要である。そこで深層学習の技術を応用する。Rectified Linear Unitを上限とする非線形の活性度関数を用いると学習時間と分類性能を大幅に改善できることがわかった。さらに部分観測環境にも適用可能な新しい方策探査法を開発した。部分観測環境では状態から観測量は確率的に決定するため、確率的制御則を用いると学習に必要な方策勾配の分散が非常に大きくなる。本研究では決定的制御則のハイパーパラメータを更新するようにすることで分散を小さくしつつ、学習率の必要のないEMアルゴリズムを用いた。提案手法は従来法と比べてパラメータの調整の度合いが少なく、かつ高い学習性が得られた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由使用していたロボットのパーツが製造中止になったことに伴い、実験に使用するロボットを変更しなければならなかった。結果として申請時の予定とは異なりアルデバラン社の人型ロボットを購入し、実験に用いることにした。そのためには含まれなかった新しいロボット上にプログラムを移植する必要があり、そのために予定外の時間を要した。しかしプログラミング開発環境は大幅に改善されたため、これは次年度以降の研究において非常に重要な成果であった。
今後の研究の推進方策	提案した深層学習法は画像識別課題において非常に高い識別精度を保ちつつ、計算コストを抑えることに成功した。今年度は順・逆強化学習問題に適用する。我々の逆強化学習法は密度比推定法に帰着され、最終的には学習前と学習後のサンプルを分類する問題になるので、深層学習との親和性が高い。 EM学習を用いた決定論的制御則のハイパーパラメータ探索法は、パラメータを更新するとそれまでに収集していたサンプルを廃棄していた。これはサンプルが新しいパラメータの更新にはそのままでは利用できないからであるが、この問題を重点サンプリングを用いて再利用することを考える。この修正によって導出されるアルゴリズムは進化的計算法の観点からすると、過去の世代で得た評価をいかに再利用するかに相当する。このアルゴリズムの理論的性質を調査するとともに、実ロボットを用いた実験で有効性を検証する。申請時点で予定していた複数モジュールの切り替えについて、各モジュールが異なる時間割引パラメータγを持つと有効であることが本年度の予備実験にて判明した。モデルの精度が低い場合にはモデルベース学習は有効ではなくγは小さくで十分で、精度が高い場合にはγを大きくしたほうが良い。一方でモデルフリーでは必ずしもそうとは限らない。この仮説に立ち、モジュール切り替えの条件をモデルの予測誤差とすることで、モデルベースとモデルフリーのどちらを選べばよいかの基準を導出する。現在そのためのシミュレーションを実施中である。使用するロボットをアルデバラン社のNaoに変更したため、ロボティクス分野における標準的なミドルウェアの一つであるROSを使ってプログラムを記述できる。再利用可能なソフトウェア群を開発することも今後の予定である。

研究成果
(8件)

すべて 2015 2014 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件、謝辞記載あり 1件) 学会発表 (5件) 備考 (1件) 産業財産権 (1件) (うち外国 1件)

[雑誌論文] Expected energy-based restricted Boltzmann machine for classification2015
- 著者名/発表者名
  S. Elfwing, E. Uchibe, and K. Doya
- 雑誌名
  
  Neural Networks
  
  巻: 64 ページ: 29-38
- DOI
  10.1016/j.neunet.2014.09.006
- 査読あり / オープンアクセス / 謝辞記載あり
[学会発表] Two-wheeled smartphone robot learns to stand up and balance by EM-based policy hyper parameter exploration2015
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya
- 学会等名
  20th International Symposium on Artificial Life and Robotics
- 発表場所
  Beppu
- 年月日
  2015-01-21 – 2015-01-23
[学会発表] Inverse Reinforcement Learning Using Dynamic Policy Programming2014
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  4th Joint IEEE International Conference on Development and Learning and on Epigenetic Robotics
- 発表場所
  Genoa
- 年月日
  2014-10-13 – 2014-10-16
[学会発表] 密度比推定を用いた逆強化学習2014
- 著者名/発表者名
  内部英治、銅谷健司
- 学会等名
  第32回日本ロボット学会学術講演会
- 発表場所
  九州産業大学
- 年月日
  2014-09-04 – 2014-09-06
[学会発表] Control of Two-Wheeled Balancing and Standing-up Behaviors by an Android Phone Robot2014
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya.
- 学会等名
  第32回日本ロボット学会学術講演会
- 発表場所
  九州産業大学
- 年月日
  2014-09-04 – 2014-09-06
[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  IEEE International Conference on Robotics and Automation
- 発表場所
  Hong Kong
- 年月日
  2014-05-31 – 2014-06-07
[備考] 神経計算ユニット適応システムグループ
- URL
  https://groups.oist.jp/ja/ncu/adaptive-systems-group
[産業財産権] Estimating goals using inverse reinforcement learning based on density ratio estimation2014
- 発明者名
  E. Uchibe and K. Doya
- 権利者名
  E. Uchibe and K. Doya
- 産業財産権種類
  特許
- 産業財産権番号
  US62/034510
- 出願年月日
  2014-07-31
- 外国

2014 年度 実績報告書

部分観測環境下におけるモデルベース・モデルフリー強化学習の役割分担

研究代表者

内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Expected energy-based restricted Boltzmann machine for classification2015

著者名/発表者名

雑誌名

DOI

[学会発表] Two-wheeled smartphone robot learns to stand up and balance by EM-based policy hyper parameter exploration2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Inverse Reinforcement Learning Using Dynamic Policy Programming2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 密度比推定を用いた逆強化学習2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Control of Two-Wheeled Balancing and Standing-up Behaviors by an Android Phone Robot2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014

著者名/発表者名

学会等名

発表場所

年月日

[備考] 神経計算ユニット 適応システムグループ

URL

[産業財産権] Estimating goals using inverse reinforcement learning based on density ratio estimation2014

発明者名

権利者名

産業財産権種類

産業財産権番号

出願年月日

2014 年度実績報告書

内部英治沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)

[備考] 神経計算ユニット適応システムグループ