一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータに対応する強化学習法

研究課題

研究課題/領域番号	18K11424
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	筑波大学
研究代表者	澁谷長史筑波大学, システム情報系, 助教 (90582776)
研究期間 (年度)	2018-04-01 – 2021-03-31
研究課題ステータス	完了 (2020年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2019年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2018年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
キーワード	機械学習 / 強化学習 / 一次遅れ要素 / むだ時間要素
研究成果の概要	つぎの３通りの方法で補償器設計に関する研究を進め、さらに応用に関する研究も行った。１つ目の方法は、一次遅れ要素やむだ時間の有無によって生じる遷移先の状態の差を小さくするという基準で補償器を設計するというものである。２つ目の方法は、一次遅れ要素の有無によって生じる一次遅れ要素の出力の差を小さくするという基準で補償器を設計するというものである。３つ目の方法は、一次遅れ要素に対する拡張状態を一次遅れの特性を利用した低次元表現によって設計するものである。最後に、アクチュエータを持つロボットが様々な床面を走行する場合を想定し、行動戦略を切り替える強化学習法について研究を行った。
研究成果の学術的意義や社会的意義	本研究の成果は大きく２つの学術的意義を有する。本研究の意義の1つ目は、補償器をあとから追加する方式をとる場合でもそれらの再学習を不要にできる点である。一次遅れ要素やむだ時間要素を含まない環境で学習を行い、あとからこれらを追加した環境で学習しようとする場合に生じる再学習を避けることができる。また、2つ目は、一次遅れ要素やむだ時間要素の出力値に関する情報を直接的には利用しないため、環境の情報を新たにセンシングする必要もない点である。この性質により、環境から見込んだ先を不変のものとして扱うことができる。

報告書

(4件)

研究成果
(3件)

すべて 2021 2019 2018

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] AdaptiveModularReinforcemen tLearning for Robot Controlled in Multiple Environments2021
- 著者名/発表者名
  Teppei Iwata, Takeshi Shibuya
- 雑誌名
  
  IEEE Access
  
  巻: -
- 関連する報告書
  2020 実績報告書
- 査読あり / オープンアクセス
[学会発表] 行動出力に大きな一時遅れを持つ環境における強化学習のための補償器の設計2019
- 著者名/発表者名
  小林翔樹、澁谷長史
- 学会等名
  第76回知的システム研究会（SIC2019-2）論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] Reinforcement Learning Method for Cases Where the State Observation Period Is Larger Than the Action Decision Period2018
- 著者名/発表者名
  Masaki Yotsukura, Takeshi Shibuya
- 学会等名
  Proceedings of the SICE Annual Conference 2018
- 関連する報告書
  2018 実施状況報告書
- 国際学会

一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータに対応する強化学習法

研究代表者

澁谷 長史 筑波大学, システム情報系, 助教 (90582776)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] AdaptiveModularReinforcemen tLearning for Robot Controlled in Multiple Environments2021

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 行動出力に大きな一時遅れを持つ環境における強化学習のための補償器の設計2019

著者名/発表者名

学会等名

関連する報告書

[学会発表] Reinforcement Learning Method for Cases Where the State Observation Period Is Larger Than the Action Decision Period2018

著者名/発表者名

学会等名

関連する報告書

澁谷長史筑波大学, システム情報系, 助教 (90582776)