• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実績報告書

強化学習のための情報理論に基づく報酬の設計論

研究課題

研究課題/領域番号 24500249
研究機関沖縄科学技術大学院大学

研究代表者

内部 英治  沖縄科学技術大学院大学, 神経計算ユニット, グループリーダー (20426571)

研究期間 (年度) 2012-04-01 – 2015-03-31
キーワード逆強化学習 / 報酬関数 / 密度比推定 / KLダイバージェンス
研究実績の概要

本研究は強化学習の目的関数を規定する報酬関数を(1) ユーザが与える疎な外的報酬と、(2) ロボットと環境の相互作用から自律的に構築される詳細な内的報酬に分割して扱う新しい報酬関数の設計論を提案する。
最終的に密度比推定を用いた逆強化学習法のアルゴリズムを開発できた。これは学習前後の確率的制御則の比率が報酬によって表現できることを利用している。人の倒立振子の学習やラットのレバー押し課題に適用し、適切な報酬が推定できることを確認した。さらに推定した報酬をもとに順強化学習を用いて行動を再現する際に、提案手法が同時に推定している価値関数を用いることで学習スピードが大幅に改善されることを示した。アルゴリズムの基本的な部分はICDL-EpiRob 2014の口頭発表として選ばれ、PCT出願(国際特許出願)した。現在、目的関数を修正することで計算コストの低減と推定精度の改善を実現した本年度提案したアルゴリズムの改良版を国際英語論文誌に登校中である。
ただし提案手法によって推定された報酬は内的報酬と外的報酬の和であって、両者を分割することはできなかった。ロボットの制御則を学習させることが最終目的である場合は現状でも問題ないが、人や動物の行動の原因を解析するためには報酬関数の近似器を工夫する必要があることが判明した。
また、使用していたロボットのパーツが製造中止になったことに伴い、使用するロボットを変更しなければならなかった。結果として申請時の予定には含まれなかった新しいロボットの開発をする必要があり、そのために予定外の時間を要した。新しいロボットはアンドロイドスマートフォンをベースにした安価なシステムであり、パーツの製造中止にも柔軟に対応できるものである。これは次年度以降の研究において非常に重要な成果であった。

  • 研究成果

    (7件)

すべて 2015 2014 その他

すべて 学会発表 (5件) 備考 (1件) 産業財産権 (1件) (うち外国 1件)

  • [学会発表] Two-wheeled smartphone robot learns to stand up and balance by EM-based policy hyper parameter exploration2015

    • 著者名/発表者名
      J. Wang, E. Uchibe, and K. Doya
    • 学会等名
      International Symposium on Artificial Life and Robotics
    • 発表場所
      Beppu
    • 年月日
      2015-01-21 – 2015-01-23
  • [学会発表] Inverse Reinforcement Learning Using Dynamic Policy Programming2014

    • 著者名/発表者名
      E. Uchibe and K. Doya
    • 学会等名
      Proc. of the 4th Joint IEEE International Conference on Development and Learning and on Epigenetic Robotics
    • 発表場所
      Genoa
    • 年月日
      2014-10-13 – 2014-10-16
  • [学会発表] 密度比推定を用いた逆強化学習2014

    • 著者名/発表者名
      内部英治,銅谷賢治
    • 学会等名
      第32回日本ロボット学会学術講演会
    • 発表場所
      九州産業大学
    • 年月日
      2014-09-04 – 2014-09-06
  • [学会発表] Control of Two-Wheeled Balancing and Standing-up Behaviors by an Android Phone Robot2014

    • 著者名/発表者名
      J. Wang, E. Uchibe, and K. Doya
    • 学会等名
      第32回日本ロボット学会学術講演会
    • 発表場所
      九州産業大学
    • 年月日
      2014-09-04 – 2014-09-06
  • [学会発表] Combining learned controllers to achieve new goals based on linearly solvable MDPs2014

    • 著者名/発表者名
      E. Uchibe and K. Doya
    • 学会等名
      Proc. of IEEE International Conference on Robotics and Automation
    • 発表場所
      Hong Kong
    • 年月日
      2014-05-31 – 2014-06-07
  • [備考] 神経計算ユニット 適応システムグループ

    • URL

      https://groups.oist.jp/ja/ncu/adaptive-systems-group

  • [産業財産権] Estimating goals using inverse reinforcement learning based on density ratio estimation2014

    • 発明者名
      E. Uchibe and K. Doya
    • 権利者名
      E. Uchibe and K. Doya
    • 産業財産権種類
      特許US62/034510
    • 産業財産権番号
      US62/034510
    • 出願年月日
      2014-07-31
    • 外国

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi