• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Research-status Report

オンライン鏡像降下法に基づく高次元強化学習アルゴリズムの構築と応用

Research Project

Project/Area Number 17K12737
Research InstitutionTokyo University of Agriculture and Technology

Principal Investigator

矢野 史朗  東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)

Project Period (FY) 2017-04-01 – 2019-03-31
Keywords強化学習 / 鏡像降下法 / 直接方策探索 / Nesterov加速法 / ベイズ推定
Outline of Annual Research Achievements

鏡像降下法に基づき,下記4つの研究を遂行した.詳細はそれぞれ末尾に記載する.(a.1)直接方策探索法の設計(Mirror Descent Search, MDSの提案)(a.2)Path Integral Policy Search (PI2)を含む幾つかの既存手法の再解釈(b.1)加速鏡像降下法に基づくMDSの拡張(Accelerated Mirror Descent Search, AMDSの提案)(b.2)MDSおよびAMDSの性能評価実験
(a.1) 強化学習問題は,問題着手時に目的関数の関数形がわかっていない条件で最適化が要求される問題といえる.つまり問題開始時点で目的関数の微分が容易にできない.この問題への対処として,目的関数の学習を陽に行う価値関数ベースの手法,方策勾配定理に基づく方策関数ベースの手法が採用されてきた.本研究はこれに対し,鏡像降下法(Mirror Descent, MD)に基づいた微分フリーの勾配法を導出し,Mirror Descent Search(MDS)として提案した.
(a.2) 近年提案されたPI2やREPSといった強化学習手法が,MDSから求まることを示した.またMDSの定式化に用いるBregman Divergenceからα-Divergenceを経由してKullback Leibler Divergenceの順逆方向どちらもが求まることに着目し,近年提案されたその他の手法との関連性を論じた.
(b.1) 鏡像降下法は強化学習と独立した分野として研究が進んでいる.この分野でNesterov加速法を非ユークリッド空間に拡張して鏡像降下法に統合した手法である加速鏡像降下法が近年提案されており,これを用いてMDSをAMDSへと拡張した.収束速度が改善される.
(b.2) MDS,AMDSを幾つかのベンチマーク問題で評価し,良好な結果を得た.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

非常に順調に進展している.
まず鏡像降下法および提案手法の理解が進んだ結果,申請時に鏡像降下法から導出可能と列挙した既存手法の多くについて関連性が明らかになった.特に提案手法が微分計算(最急降下法)の代用となり得ることから,従来手法に含まれる最急降下法の部分を本手法で置き換える研究や,双方を組み合わせる研究などにも着手でき,当初の予定以上に研究が進んだ.
またKL制約条件付き最適化問題の逐次最適化アルゴリズムとしてベイズの定理を導出する研究が1980年代から一部研究者の間で進んでいることを調査し,鏡像降下法を用いてベイズの定理に対してもNesterov加速が適用できる可能性について明らかにした.これに加えて,Bayesian Brain仮説を提唱している計算論的な認知科学・神経科学の研究分野の学術雑誌や国際会議で,ベイズの定理を勾配法として解釈することや強化学習との関連について紹介した.

Strategy for Future Research Activity

当初計画通り,次の2点に取り組む.(c)深層強化学習への適用可能性の評価 (d)ロボットアーム制御など,実世界での評価の検討.
(c.1) 深層強化学習のような多層かつ高次元の最適化問題に提案手法MDSを適用した場合に,適切に収束するか,あるいは追加の技法が必要かを評価する.本手法はベイズ推定と関連があるため,近年発展著しいBayesian Deep Neural Networkの技法を取り込むことなどが課題と考えている.
(c.2) 深層強化学習の既存手法は幾つか提案されている.Deterministic Policy Gradient(DPG)をActor-Critic型深層強化学習に適用できるよう拡張した手法でSoTAの一つとなっているdeep-DPG(DDPG)に着目する.DDPGでは4つのDNNを使用するため,大量のメモリを使用する.DDPG内の数カ所で使用されている最急降下法をMDSに置き換え,よりメモリ消費の少ない深層強化学習アルゴリズムを設計することを目指す.
(d) 実世界での手法評価のため,ロボットアームなどの制御に取り組む.深層強化学習DDPGの拡張に成功していれば,画像入力からトルク制御までのend-to-end学習を目指す.

Remarks

Webページ1,2では,国際会議Workshop(査読なし)において研究成果を発表した際の概要を記載している.

  • Research Products

    (8 results)

All 2017 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 5 results) Remarks (2 results)

  • [Journal Article] 運動主体感に着目したリハビリへのモデルベースドアプローチ2017

    • Author(s)
      矢野 史朗、近藤 敏之、前田 貴記
    • Journal Title

      日本ロボット学会誌

      Volume: 35 Pages: 512~517

    • DOI

      10.7210/jrsj.35.512

    • Peer Reviewed / Open Access
  • [Presentation] Accelerated Mirror Descent in Reinforcement Learning2017

    • Author(s)
      Shiro Yano
    • Organizer
      The 8th International Symposium on Adaptive Motion of Animals and Machines; Workshop on Embodied-Brain Systems Science
    • Int'l Joint Research
  • [Presentation] Experiment of reinforcement learning with extremum seeking2017

    • Author(s)
      Megumi Miyashita, Ryo Hirotani , Shiro Yano, Toshiyuki Kondo
    • Organizer
      6th ICT International Student Project Conference (ICT-ISPC)
    • Int'l Joint Research
  • [Presentation] Direct policy search with extremum seeking2017

    • Author(s)
      Megumi Miyashita, Ryo Hirotani , Shiro Yano, Toshiyuki Kondo
    • Organizer
      56th Annual Conference of the Society of Instrument and Control Engineers of Japan (SICE), 2017
    • Int'l Joint Research
  • [Presentation] Bayesian Learning and Sense of Agency2017

    • Author(s)
      Shiro Yano, Hiroshi Imamizu, Toshiyuki Kondo, Takaki Maeda
    • Organizer
      IROS 2017 Full Day Workshop Embodied Brain Systems Science
    • Int'l Joint Research
  • [Presentation] Mirror Descent based Reinforcement Learning2017

    • Author(s)
      Megumi Miyashita, Shiro Yano, Toshiyuki Kondo
    • Organizer
      IROS 2017 Full Day Workshop Embodied Brain Systems Science
    • Int'l Joint Research
  • [Remarks] IROS2017 Workshop

    • URL

      http://www.robot.t.u-tokyo.ac.jp/~an/IROS2017_WS.html

  • [Remarks] AMAM2017 Special Session

    • URL

      http://adaptivemotion.org/AMAM2017/program/specialSession.html

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi