オンライン鏡像降下法に基づく高次元強化学習アルゴリズムの構築と応用

研究課題

研究課題/領域番号	17K12737
研究種目	若手研究(B)
配分区分	基金
研究分野	知能情報学
研究機関	東京農工大学
研究代表者	矢野史朗東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)
研究期間 (年度)	2017-04-01 – 2019-03-31
研究課題ステータス	完了 (2018年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2018年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2017年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
キーワード	強化学習 / 鏡像降下法 / ベイズ推定 / Nesterov加速 / 直接方策探索 / Nesterov加速法 / 機械学習
研究成果の概要	「鏡像降下法を基盤にした強化学習アルゴリズムの設計」「鏡像降下法とベイズ学習の関係理解」「強化学習アルゴリズムの応用」という構成で研究を進めた．アルゴリズム設計では，鏡像降下法を基盤にderivative freeアルゴリズムを設計した．さらに，鏡像降下法の拡張を行った上で同様の手続きを行うという手順により，強化学習アルゴリズムの拡張が可能であることを示した．鏡像降下法からベイズの定理が導出できることに着目し，統計的推定アルゴリズムと強化学習アルゴリズムの接点について研究を行った．設計した強化学習アルゴリズムの応用事例研究として，多自由度の強化学習問題と，ロボットアーム制御問題を扱った．
研究成果の学術的意義や社会的意義	相手の価値観や競技の採点基準（目的関数）を満たすよう行動を最適化する必要があるとき，初対面の相手や初めての競技で，この目的関数を事前に把握することは困難である．本課題で扱うのは，こうした扱う問題のモデルを持たない状況で現場に臨み行動（方策関数）を最適化していく問題であり，未知環境下で活動する人工物にとって重要な問題である．より実用的には行動空間も状態空間も高次元かつ連続という状況を考える必要があり，本課題ではこうした高次元な強化学習問題のためのアルゴリズム設計と，いくつかの応用事例を示すものである．

報告書

(3件)

2018 実績報告書研究成果報告書 ( PDF )
2017 実施状況報告書

研究成果
(14件)

すべて 2019 2018 2017 その他

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (9件) (うち国際学会 9件、招待講演 2件) 図書 (1件) 備考 (2件)

[雑誌論文] Mirror descent search and its acceleration2018
- 著者名/発表者名
  Megumi Miyashita, Shiro Yano, Toshiyuki Kondo
- 雑誌名
  
  Robotics and Autonomous Systems
  
  巻: 106 ページ: 107-116
- DOI
  10.1016/j.robot.2018.04.009
- 関連する報告書
  2018 実績報告書
- 査読あり / オープンアクセス
[雑誌論文] 運動主体感に着目したリハビリへのモデルベースドアプローチ2017
- 著者名/発表者名
  矢野史朗、近藤敏之、前田貴記
- 雑誌名
  
  日本ロボット学会誌
  
  巻: 35 号: 7 ページ: 512-517
- DOI
  10.7210/jrsj.35.512
- NAID
  130006110607
- ISSN
  0289-1824, 1884-7145
- 関連する報告書
  2017 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Pulling on socks by a force-compliant robot2019
- 著者名/発表者名
  Megumi Miyashita, Vladimir Kubelka, Toshiyuki Kondo, Shiro Yano and Vaclav Hlavac
- 学会等名
  24th Computer Vision Winter Workshop 2019
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] On the Residual of Mirror Descent Search and Scalability via Dimensionality Reduction2018
- 著者名/発表者名
  Murata Yuuki, Miyashita Megumi, Yano Shiro, Kondo Toshiyuki
- 学会等名
  2018 Seventh ICT International Student Project Conference (ICT-ISPC)
- 関連する報告書
  2018 実績報告書
- 国際学会
[学会発表] Mirror Descent: Bridge Between Bayesian-brain and Reinforcement Learning Algorithm2018
- 著者名/発表者名
  Shiro Yano
- 学会等名
  The 2018 Japan-America Frontiers of Engineering symposium
- 関連する報告書
  2018 実績報告書
- 国際学会 / 招待講演
[学会発表] Statistical Learning formulation of Sense of Agency, From normal subjects to mental disordered subjects2018
- 著者名/発表者名
  Shiro Yano
- 学会等名
  The 1st Korea-China-Japan international symposium on disability overcome
- 関連する報告書
  2018 実績報告書
- 国際学会 / 招待講演
[学会発表] Accelerated Mirror Descent in Reinforcement Learning2017
- 著者名/発表者名
  Shiro Yano
- 学会等名
  The 8th International Symposium on Adaptive Motion of Animals and Machines; Workshop on Embodied-Brain Systems Science
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Experiment of reinforcement learning with extremum seeking2017
- 著者名/発表者名
  Megumi Miyashita, Ryo Hirotani , Shiro Yano, Toshiyuki Kondo
- 学会等名
  6th ICT International Student Project Conference (ICT-ISPC)
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Direct policy search with extremum seeking2017
- 著者名/発表者名
  Megumi Miyashita, Ryo Hirotani , Shiro Yano, Toshiyuki Kondo
- 学会等名
  56th Annual Conference of the Society of Instrument and Control Engineers of Japan (SICE), 2017
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Bayesian Learning and Sense of Agency2017
- 著者名/発表者名
  Shiro Yano, Hiroshi Imamizu, Toshiyuki Kondo, Takaki Maeda
- 学会等名
  IROS 2017 Full Day Workshop Embodied Brain Systems Science
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[学会発表] Mirror Descent based Reinforcement Learning2017
- 著者名/発表者名
  Megumi Miyashita, Shiro Yano, Toshiyuki Kondo
- 学会等名
  IROS 2017 Full Day Workshop Embodied Brain Systems Science
- 関連する報告書
  2017 実施状況報告書
- 国際学会
[図書] 身体性システムとリハビリテーションの科学2　身体認知2018
- 著者名/発表者名
  近藤　敏之、今水　寛、森岡　周
- 総ページ数
  276
- 出版者
  東京大学出版会
- ISBN
  4130644025
- 関連する報告書
  2018 実績報告書
[備考] IROS2017 Workshop
- URL
  http://www.robot.t.u-tokyo.ac.jp/~an/IROS2017_WS.html
- 関連する報告書
  2017 実施状況報告書
[備考] AMAM2017 Special Session
- URL
  http://adaptivemotion.org/AMAM2017/program/specialSession.html
- 関連する報告書
  2017 実施状況報告書

オンライン鏡像降下法に基づく高次元強化学習アルゴリズムの構築と応用

研究代表者

矢野 史朗 東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] Mirror descent search and its acceleration2018

著者名/発表者名

雑誌名

DOI

関連する報告書

[雑誌論文] 運動主体感に着目したリハビリへのモデルベースドアプローチ2017

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] Pulling on socks by a force-compliant robot2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] On the Residual of Mirror Descent Search and Scalability via Dimensionality Reduction2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Mirror Descent: Bridge Between Bayesian-brain and Reinforcement Learning Algorithm2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Statistical Learning formulation of Sense of Agency, From normal subjects to mental disordered subjects2018

著者名/発表者名

学会等名

関連する報告書

[学会発表] Accelerated Mirror Descent in Reinforcement Learning2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Experiment of reinforcement learning with extremum seeking2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Direct policy search with extremum seeking2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Bayesian Learning and Sense of Agency2017

著者名/発表者名

学会等名

関連する報告書

[学会発表] Mirror Descent based Reinforcement Learning2017

著者名/発表者名

学会等名

関連する報告書

[図書] 身体性システムとリハビリテーションの科学2 身体認知2018

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

[備考] IROS2017 Workshop

URL

関連する報告書

[備考] AMAM2017 Special Session

URL

関連する報告書

矢野史朗東京農工大学, 工学(系)研究科(研究院), 助教 (90636789)

[図書] 身体性システムとリハビリテーションの科学2　身体認知2018