2022 Fiscal Year Research-status Report

Reward extrapolation for imitation learning from a dissimilar agent

Research Project

Project/Area Number	21K12078
Research Institution	Meijo University
Principal Investigator	増山岳人名城大学, 理工学部, 准教授 (20707088)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	強化学習 / 逆強化学習 / 外挿
Outline of Annual Research Achievements	本研究課題では，ロボットなどの身体をもつ学習主体を想定した，自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている．2022年度は，主に3つのアプローチについて検証，検討を行った． 1) 昨年度から開発してきた，教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った．特に，スキルによる外挿性能への影響を検証したが，これに関しては現時点で有力な仮説の着想には至っていない． 2) 研究計画において実施を予定していた，学習主体の身体，環境，タスクの関係性をモデル化するグラフ表現学習手法の開発に着手した．今年度は，状態情報と，人からのフィードバックによる表現学習により新たな状態を学習し，それらを結合し制御則のモデルへの入力とすることで強化学習の学習効率が向上可能であることを確認した． 3) 関数の式自体を陽に推定する，シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化を試みた．データの背後にある法則性を学習することによって外挿を図るアプローチである．まず，関数学習器への入力として，性能のよいデモンストレーション軌道を用いて関数を学習したところ，デモンストレーションと同等の性能をもつ方策が学習可能であることを確認した．そこで，先行研究によって外挿された報酬関数から得られた軌道について，実験的に検証を行った．ここで，先行研究ではデモンストレーションではなく，非最適な軌道を教師データとした直接的な模倣学習により得られる方策を利用する．この場合に学習された報酬関数の外挿性能はタスクに依存し，1つのタスクでは元の方策と同程度，別のタスクでは外挿が成功するという結果となった．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 研究実績の概要で述べた3つのアプローチを中心に，報酬関数の外挿による模倣学習の実現に向けて研究に取り組んできた．いずれの方法においても一定の成果が得られている一方で，現時点では外挿性能のタスク依存性が強く，十分な一般性をもったアルゴリズムの開発には至っていない．これは，実際にはタスクというよりも身体構造による実行可能な動作パターンの違いが強く影響している可能性もあると考えている．また，1)についての検証は進んでいるものの当初予定から遅れて進捗している．
Strategy for Future Research Activity	研究計画に大きな変更はないが，報酬関数の外挿が成立する条件についての解析は難航しているため，データ駆動形のアプローチに重きをおく方針で研究を進めていくことを検討している．
Causes of Carryover	当初購入を予定していたロボットなどが円安の影響で値上がりし，購入すると以降の研究遂行に支障を来す状況であった．研究の進捗から直ちに必要になるわけではなかったため，支出を抑えアルゴリズムの開発を優先し，価格高騰の落ち着きを待つことにした．しかし，現時点でも状況が改善していないため，2023度は代替のロボットの購入を検討する．

Research Products
(2 results)

All Presentation (2 results)

[Presentation] 自己方策を用いた他者の意図推定に基づくマルチエージェント強化学習2022
- Author(s)
  不破雅泰，増山岳人
- Organizer
  ロボティクス・メカトロニクス講演会2022
[Presentation] 強化学習における状態と行動に関するData Augmentationの検討2022
- Author(s)
  濱田ありさ，増山岳人
- Organizer
  第23回計測自動制御学会システムインテグレーション部門講演会