モデルベース予測状態フィードバックを組み込んだ強化学習

公募研究

研究領域	予測と意思決定の脳内計算機構の解明による人間理解と応用
研究課題/領域番号	24120527
研究種目	新学術領域研究(研究領域提案型)
配分区分	補助金
審査区分	複合領域
研究機関	沖縄科学技術大学院大学
研究代表者	内部英治沖縄科学技術大学院大学, 神経計算ユニット, 研究員 (20426571)
研究期間 (年度)	2012-04-01 – 2014-03-31
研究課題ステータス	完了 (2013年度)
配分額 *注記	8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円) 2013年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2012年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
キーワード	強化学習 / モデルフリー / モデルベース / 線形可解マルコフ決定過程 / 最適制御
研究概要	最適制御問題は非線形偏微分方程式であるベルマン方程式を解く問題に帰着され、解として得られる価値関数から最適制御則が構築される。この非線形性を緩和する方法が線形可解ベルマン方程式による強化学習法である。前年度の実ロボット実験の結果より、この手法はモデル化誤差の影響が通常の強化学習法よりも大きいことが分かった。この問題に対処するために二つの解決法を提案した。一つはゲーム理論に基づくミニマックス法を導入することにより、環境のモデル化誤差にロバストな線形化強化学習法を提案した。基本的なアルゴリズムはDvijotham and Todorov 2011によって提案されていたものの、環境のモデル化誤差が制御則に及ぼす影響は調査されていなかったため、本研究ではその点を膨大なシミュレーションによって調査した。その結果、関数近似誤差のある連続問題とそうでない離散問題で、ロバストネスを調節するパラメータの設計指針が異なることを示した。離散問題に適用した結果をAROBシンポジウムで発表し、連続問題に適用した結果をJournal of Artificial Life and Roboticsに投稿予定である。もう一つは価値関数を指数変換した適合度関数を環境との相互作用から直接推定するモデルフリー強化学習法を手案した。これはfinite horizonの問題として定式化されるが、導出されたアルゴリズムはコスト関数を指数変換したものの逆数が状態依存の割引率に相当することを示した。この手法を線形可解マルコフ決定過程における制御器の重ね合わせ法と組み合わせ、実ロボットを用いた実証実験を行った。この結果はNeuro2013の招待講演での講演および国際会議ICRA2014に採択され、ICRA2014については6月に口頭発表予定である。
現在までの達成度 (区分)	理由 25年度が最終年度であるため、記入しない。
今後の研究の推進方策	25年度が最終年度であるため、記入しない。

報告書

(2件)

2013 実績報告書
2012 実績報告書

研究成果
(10件)

すべて 2014 2013

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (9件) (うち招待講演 3件)

[雑誌論文] Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task2013
- 著者名/発表者名
  Kinjo K, Uchibe E, Doya K
- 雑誌名
  
  Frontiers in Neurorobotics
  
  巻: 7 ページ: 7-7
- DOI
  10.3389/fnbot.2013.00007
- 関連する報告書
  2012 実績報告書
- 査読あり
[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  Proc. of IEEE International Conference on Robotics and Automation
- 発表場所
  Hong Kong
- 関連する報告書
  2013 実績報告書
[学会発表] Robustness of Linearly Solvable Markov Games with Inaccurate Dynamics Models2014
- 著者名/発表者名
  K. Kinjo, E. Uchibe, and K. Doya
- 学会等名
  Proc. of International Symposium on Artificial Life and Robotics
- 発表場所
  Beppu, Japan
- 関連する報告書
  2013 実績報告書
[学会発表] Standing-up and Balancing Behaviors of Android Phone Robot -- Control of Spring Attached Wheeled Inverted Pendulum --2013
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya
- 学会等名
  IEICE Technical Committee on Nonlinear Problems (NLP)
- 発表場所
  City University of Hong Kong
- 関連する報告書
  2013 実績報告書
[学会発表] Inverse reinforcement learning for analysis of human behaviors2013
- 著者名/発表者名
  E. Uchibe, S. Ota, and K. Doya
- 学会等名
  The 1st Multidisciplinary Conference on Reinforcement Learning and Decision Making
- 発表場所
  Princeton University
- 関連する報告書
  2013 実績報告書
[学会発表] Scaled free-energy based reinforcement learning for robust and efficient learning in high-dimensional state spaces2013
- 著者名/発表者名
  E. Uchibe, S. Elfwing, and K. Doya
- 学会等名
  Neuro 2013
- 発表場所
  Kyoto International Conference Center
- 関連する報告書
  2013 実績報告書
- 招待講演
[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2013
- 著者名/発表者名
  E. Uchibe, and K. Doya
- 学会等名
  Neuro 2013
- 発表場所
  Kyoto International Conference Center
- 関連する報告書
  2013 実績報告書
- 招待講演
[学会発表] Inverse reinforcement learning by density ratio estimation2013
- 著者名/発表者名
  E. Uchibe, and K. Doya
- 学会等名
  第16回情報論的学習理論ワークショップIBIS2013
- 発表場所
  東京工業大学蔵前会館
- 関連する報告書
  2013 実績報告書
[学会発表] Inverse reinforcement learning for understanding human behaviors2013
- 著者名/発表者名
  E. Uchibe
- 学会等名
  International Symposium on Past and Future Directions of Cognitive Developmental Robotics
- 発表場所
  Osaka University Nakanoshima Center 10F
- 関連する報告書
  2013 実績報告書
- 招待講演
[学会発表] Analysis of human behaviors by inverse reinforcement learning in a pole balancing task2013
- 著者名/発表者名
  S. Ota, E. Uchibe, and K. Doya
- 学会等名
  The 3rd International Symposium on The Biology of Decision Making
- 発表場所
  Paris, France
- 関連する報告書
  2013 実績報告書

モデルベース予測状態フィードバックを組み込んだ強化学習

研究代表者

内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, 研究員 (20426571)

8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)

理由

報告書

研究成果

[雑誌論文] Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task2013

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Robustness of Linearly Solvable Markov Games with Inaccurate Dynamics Models2014

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Standing-up and Balancing Behaviors of Android Phone Robot -- Control of Spring Attached Wheeled Inverted Pendulum --2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning for analysis of human behaviors2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Scaled free-energy based reinforcement learning for robust and efficient learning in high-dimensional state spaces2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning by density ratio estimation2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning for understanding human behaviors2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Analysis of human behaviors by inverse reinforcement learning in a pole balancing task2013

著者名/発表者名

学会等名

発表場所

関連する報告書

内部英治沖縄科学技術大学院大学, 神経計算ユニット, 研究員 (20426571)