Reward extrapolation for imitation learning from a dissimilar agent

Research Project

Project/Area Number	21K12078
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Meijo University
Principal Investigator	増山岳人名城大学, 理工学部, 准教授 (20707088)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2021: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	強化学習 / 逆強化学習 / 外挿 / 報酬関数
Outline of Research at the Start	ロボットによる観測対象の動作に対する模倣学習では，多くの場合，観測対象と学習主体であるロボットは同一，または同一視可能な身体と環境をもつことが暗黙的に仮定される．本研究では，観測対象の振る舞いを支配する''意図"の推定を介して，非同一な身体及び環境をもつ主体間での模倣学習手法の開発を目的とする．推定した''意図”を満足する動作を自律的に学習することで適応的な模倣機能の実現を目指す．
Outline of Annual Research Achievements	本研究課題では，ロボットなどの身体をもつ学習主体を想定した，自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている． 2023年度は，制御問題における外挿という技術的課題に対して主に以下の3つのアプローチについて検討を行った． 1) 昨年度から引き続き，教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った．特に，データ長が不均一であり，ラベルのない非構造データを用いたスキル学習を導入することで，模倣学習に利用するデータセットに要求される条件を緩和可能であることが確認できた．また，他に2つのスキル学習手法についても有効性を検証し，一方の手法を利用することでベースラインとした報酬関数に対する類似性を大きく向上することができた． 2) 昨年度から引き続き，関数の式自体を陽に推定する，シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化について検証を進めた．状態及び行動を入力として報酬関数を推定したが，期待した性能の報酬関数を得るまでには至っていない．また，推定された関数の係数，演算子，変数の組み合わせについて分散が大きく，推定結果の安定性に課題があることを確認している． 3) 主にロコモーションの学習を想定した，方策（または方策及び価値関数）のモデルの活性化関数に，周期関数を導入するアプローチに関して研究開発を進めてきた．モデルバイアスによって方策学習において直接外挿を図る，これまでとは異なる方向性であるが，報酬関数の外挿との同時利用を想定したものである．活性化関数による周期表現に関する先行研究をベースに，強化学習問題に適した活性化関数及びモデルに関して検討を行い，学習効率が向上可能であることを確認した．
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 報酬関数の外挿を中心に，必要な基礎技術に関する開発を進めてきた．複数のアプローチで有効なアルゴリズムを検討しており，一定の成果は得られていると考える．しかし，学習結果の分散が大きい，タスク依存性が強いという点で改善の余地が残っている．そのため，異なるドメイン間での模倣学習という課題への取り組みが想定より後ろ倒しになっている．
Strategy for Future Research Activity	研究実績の概要の1)にて開発した報酬関数の外挿手法において，手動で設計された標準報酬関数と非常に類似した出力を与える報酬関数が推定できているにも関わらず，標準報酬関数を下回る学習結果となるという事例を確認しており，検証が必要であると考えている．この点に関しては，報酬関数を回帰するなど，何らかのスムージング処理をすることで，学習結果のばらつきが低減されると期待している．また，関数近似器への入力次元数が大きすぎることも学習の分散が大きい原因の1つだと考えている．そこで，事前学習で特徴抽出をしてから報酬関数推定をするアプローチを検討する．これらの対応により外挿手法の性能を向上した上で，異なるドメインのデータを使用した手法の開発に取り組む予定である．

Report

(3 results)

Research Products
(6 results)

All 2023 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Knowledge Transfer for Heterogeneous Robots based on KL Divergence Regularization between Model Parameters2021
- Author(s)
  藤井直希, 増山岳人
- Journal Title
  
  Journal of the Robotics Society of Japan
  
  Volume: 39 Issue: 4 Pages: 379-382
- DOI
  10.7210/jrsj.39.379
- NAID
  130008043221
- ISSN
  0289-1824, 1884-7145
- Related Report
  2021 Research-status Report
- Peer Reviewed / Open Access
[Presentation] 状態行動分布に基づくゴールサンプリングによる自動カリキュラム学習2023
- Author(s)
  山崎雅史、可知巧巳、増山岳人
- Organizer
  ロボティクス・メカトロニクス講演会2023
- Related Report
  2023 Research-status Report
[Presentation] 自己方策を用いた他者の意図推定に基づくマルチエージェント強化学習2022
- Author(s)
  不破雅泰，増山岳人
- Organizer
  ロボティクス・メカトロニクス講演会2022
- Related Report
  2022 Research-status Report
[Presentation] 強化学習における状態と行動に関するData Augmentationの検討2022
- Author(s)
  濱田ありさ，増山岳人
- Organizer
  第23回計測自動制御学会システムインテグレーション部門講演会
- Related Report
  2022 Research-status Report
[Presentation] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021
- Author(s)
  Takashi Aota, Gakuto Masuyama
- Organizer
  The 7th International Conference on Advanced Mechatronics
- Related Report
  2021 Research-status Report
- Int'l Joint Research
[Presentation] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021
- Author(s)
  菅田昇吾, 増山岳人
- Organizer
  第39回日本ロボット学会学術講演会
- Related Report
  2021 Research-status Report

Reward extrapolation for imitation learning from a dissimilar agent

Principal Investigator

増山 岳人 名城大学, 理工学部, 准教授 (20707088)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Knowledge Transfer for Heterogeneous Robots based on KL Divergence Regularization between Model Parameters2021

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Presentation] 状態行動分布に基づくゴールサンプリングによる自動カリキュラム学習2023

Author(s)

Organizer

Related Report

[Presentation] 自己方策を用いた他者の意図推定に基づくマルチエージェント強化学習2022

Author(s)

Organizer

Related Report

[Presentation] 強化学習における状態と行動に関するData Augmentationの検討2022

Author(s)

Organizer

Related Report

[Presentation] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021

Author(s)

Organizer

Related Report

[Presentation] 支配的な身体部位の探索によるグラフニューラ ルネットワークを用いた状態表現の獲得2021

Author(s)

Organizer

Related Report

増山岳人名城大学, 理工学部, 准教授 (20707088)

[Presentation] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021