強化学習のための情報理論に基づく報酬の設計論

研究課題

研究課題/領域番号	24500249
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
研究分野	知覚情報処理・知能ロボティクス
研究機関	沖縄科学技術大学院大学
研究代表者	内部英治沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)
研究期間 (年度)	2012-04-01 – 2015-03-31
研究課題ステータス	完了 (2014年度)
配分額 *注記	4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円) 2014年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2013年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2012年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
キーワード	強化学習 / 逆強化学習 / 報酬関数 / 密度比推定 / KLダイバージェンス / 密度比推定法
研究成果の概要	本研究では密度比推定に基づく新しい逆強化学習法を提案する。アルゴリズムを導出するために、推定される報酬にカルバックライブラー情報量で制約を与える。この結果、最適確率的制御則と基準となる制御則の対数比が報酬と価値関数によって表現される。従来法の大半が制御開始から終了までの状態系列の集合をデータとして用いるのに対し、提案手法は状態遷移の集合をデータとして用いることができるので非常にデータ効率が良い。ロボットのナビゲーション課題に適用し、提案手法は従来法よりも精度よく報酬を推定することができた。また、提案手法はシェーピングの理論と組み合わせることが可能で、順強化学習のスピードも改善できた。

報告書

(4件)

研究成果
(15件)

すべて 2015 2014 2013 その他

すべて学会発表 (13件) (うち招待講演 3件) 備考 (1件) 産業財産権 (1件) (うち外国 1件)

[学会発表] Two-wheeled smartphone robot learns to stand up and balance by EM-based policy hyper parameter exploration2015
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya
- 学会等名
  International Symposium on Artificial Life and Robotics
- 発表場所
  Beppu
- 年月日
  2015-01-21 – 2015-01-23
- 関連する報告書
  2014 実績報告書
[学会発表] Inverse Reinforcement Learning Using Dynamic Policy Programming2014
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  Proc. of the 4th Joint IEEE International Conference on Development and Learning and on Epigenetic Robotics
- 発表場所
  Genoa
- 年月日
  2014-10-13 – 2014-10-16
- 関連する報告書
  2014 実績報告書
[学会発表] 密度比推定を用いた逆強化学習2014
- 著者名/発表者名
  内部英治，銅谷賢治
- 学会等名
  第32回日本ロボット学会学術講演会
- 発表場所
  九州産業大学
- 年月日
  2014-09-04 – 2014-09-06
- 関連する報告書
  2014 実績報告書
[学会発表] Control of Two-Wheeled Balancing and Standing-up Behaviors by an Android Phone Robot2014
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya
- 学会等名
  第32回日本ロボット学会学術講演会
- 発表場所
  九州産業大学
- 年月日
  2014-09-04 – 2014-09-06
- 関連する報告書
  2014 実績報告書
[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  Proc. of IEEE International Conference on Robotics and Automation
- 発表場所
  Hong Kong
- 年月日
  2014-05-31 – 2014-06-07
- 関連する報告書
  2014 実績報告書 2013 実施状況報告書
[学会発表] Robustness of Linearly Solvable Markov Games with Inaccurate Dynamics Models2014
- 著者名/発表者名
  K. Kinjo, E. Uchibe, and K. Doya
- 学会等名
  Proc. of International Symposium on Artificial Life and Robotics
- 発表場所
  Beppu, Japan
- 関連する報告書
  2013 実施状況報告書
[学会発表] Standing-up and Balancing Behaviors of Android Phone Robot -- Control of Spring Attached Wheeled Inverted Pendulum --2013
- 著者名/発表者名
  J. Wang, E. Uchibe, and K. Doya
- 学会等名
  IEICE Technical Committee on Nonlinear Problems (NLP)
- 発表場所
  City University of Hong Kong
- 関連する報告書
  2013 実施状況報告書
[学会発表] Inverse reinforcement learning for analysis of human behaviors2013
- 著者名/発表者名
  E. Uchibe, S. Ota, and K. Doya
- 学会等名
  The 1st Multidisciplinary Conference on Reinforcement Learning and Decision Making
- 発表場所
  Princeton University, New Jersey, USA
- 関連する報告書
  2013 実施状況報告書
[学会発表] Scaled free-energy based reinforcement learning for robust and efficient learning in high-dimensional state spaces2013
- 著者名/発表者名
  E. Uchibe, S. Elfwing, and K. Doya
- 学会等名
  Neuro 2013
- 発表場所
  Kyoto International Conference Center
- 関連する報告書
  2013 実施状況報告書
- 招待講演
[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2013
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  Neuro 2013
- 発表場所
  Kyoto International Conference Center
- 関連する報告書
  2013 実施状況報告書
- 招待講演
[学会発表] Inverse reinforcement learning by density ratio estimation2013
- 著者名/発表者名
  E. Uchibe and K. Doya
- 学会等名
  第16回情報論的学習理論ワークショップIBIS2013
- 発表場所
  東京工業大学蔵前会館
- 関連する報告書
  2013 実施状況報告書
[学会発表] Inverse reinforcement learning for understanding human behaviors2013
- 著者名/発表者名
  E. Uchibe
- 学会等名
  International Symposium on Past and Future Directions of Cognitive Developmental Robotics
- 発表場所
  Osaka University Nakanoshima Center
- 関連する報告書
  2013 実施状況報告書
- 招待講演
[学会発表] Analysis of human behaviors by inverse reinforcement learning in a pole balancing task2013
- 著者名/発表者名
  S. Ota, E. Uchibe, and K. Doya
- 学会等名
  The 3rd International Symposium on The Biology of Decision Making
- 発表場所
  Paris, France
- 関連する報告書
  2013 実施状況報告書
[備考] 神経計算ユニット適応システムグループ
- URL
  https://groups.oist.jp/ja/ncu/adaptive-systems-group
- 関連する報告書
  2014 実績報告書
[産業財産権] Estimating goals using inverse reinforcement learning based on density ratio estimation2014
- 発明者名
  E. Uchibe and K. Doya
- 権利者名
  E. Uchibe and K. Doya
- 産業財産権種類
  特許
- 出願年月日
  2014-07-31
- 関連する報告書
  2014 実績報告書
- 外国

強化学習のための情報理論に基づく報酬の設計論

研究代表者

内部 英治 沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)

4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)

報告書

研究成果

[学会発表] Two-wheeled smartphone robot learns to stand up and balance by EM-based policy hyper parameter exploration2015

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Inverse Reinforcement Learning Using Dynamic Policy Programming2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 密度比推定を用いた逆強化学習2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Control of Two-Wheeled Balancing and Standing-up Behaviors by an Android Phone Robot2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] Robustness of Linearly Solvable Markov Games with Inaccurate Dynamics Models2014

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Standing-up and Balancing Behaviors of Android Phone Robot -- Control of Spring Attached Wheeled Inverted Pendulum --2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning for analysis of human behaviors2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Scaled free-energy based reinforcement learning for robust and efficient learning in high-dimensional state spaces2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning by density ratio estimation2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Inverse reinforcement learning for understanding human behaviors2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Analysis of human behaviors by inverse reinforcement learning in a pole balancing task2013

著者名/発表者名

学会等名

発表場所

関連する報告書

[備考] 神経計算ユニット 適応システムグループ

URL

関連する報告書

[産業財産権] Estimating goals using inverse reinforcement learning based on density ratio estimation2014

内部英治沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)

[備考] 神経計算ユニット適応システムグループ