報酬関数の外挿による非同一な動作主体間での模倣学習

研究課題

研究課題/領域番号	21K12078
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	名城大学
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2021年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
キーワード	強化学習 / 逆強化学習 / 外挿 / 報酬関数
研究開始時の研究の概要	ロボットによる観測対象の動作に対する模倣学習では，多くの場合，観測対象と学習主体であるロボットは同一，または同一視可能な身体と環境をもつことが暗黙的に仮定される．本研究では，観測対象の振る舞いを支配する''意図"の推定を介して，非同一な身体及び環境をもつ主体間での模倣学習手法の開発を目的とする．推定した''意図”を満足する動作を自律的に学習することで適応的な模倣機能の実現を目指す．
研究実績の概要	本研究課題では，ロボットなどの身体をもつ学習主体を想定した，自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている． 2023年度は，制御問題における外挿という技術的課題に対して主に以下の3つのアプローチについて検討を行った． 1) 昨年度から引き続き，教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った．特に，データ長が不均一であり，ラベルのない非構造データを用いたスキル学習を導入することで，模倣学習に利用するデータセットに要求される条件を緩和可能であることが確認できた．また，他に2つのスキル学習手法についても有効性を検証し，一方の手法を利用することでベースラインとした報酬関数に対する類似性を大きく向上することができた． 2) 昨年度から引き続き，関数の式自体を陽に推定する，シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化について検証を進めた．状態及び行動を入力として報酬関数を推定したが，期待した性能の報酬関数を得るまでには至っていない．また，推定された関数の係数，演算子，変数の組み合わせについて分散が大きく，推定結果の安定性に課題があることを確認している． 3) 主にロコモーションの学習を想定した，方策（または方策及び価値関数）のモデルの活性化関数に，周期関数を導入するアプローチに関して研究開発を進めてきた．モデルバイアスによって方策学習において直接外挿を図る，これまでとは異なる方向性であるが，報酬関数の外挿との同時利用を想定したものである．活性化関数による周期表現に関する先行研究をベースに，強化学習問題に適した活性化関数及びモデルに関して検討を行い，学習効率が向上可能であることを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由報酬関数の外挿を中心に，必要な基礎技術に関する開発を進めてきた．複数のアプローチで有効なアルゴリズムを検討しており，一定の成果は得られていると考える．しかし，学習結果の分散が大きい，タスク依存性が強いという点で改善の余地が残っている．そのため，異なるドメイン間での模倣学習という課題への取り組みが想定より後ろ倒しになっている．
今後の研究の推進方策	研究実績の概要の1)にて開発した報酬関数の外挿手法において，手動で設計された標準報酬関数と非常に類似した出力を与える報酬関数が推定できているにも関わらず，標準報酬関数を下回る学習結果となるという事例を確認しており，検証が必要であると考えている．この点に関しては，報酬関数を回帰するなど，何らかのスムージング処理をすることで，学習結果のばらつきが低減されると期待している．また，関数近似器への入力次元数が大きすぎることも学習の分散が大きい原因の1つだと考えている．そこで，事前学習で特徴抽出をしてから報酬関数推定をするアプローチを検討する．これらの対応により外挿手法の性能を向上した上で，異なるドメインのデータを使用した手法の開発に取り組む予定である．

報告書

(3件)

研究成果
(6件)

すべて 2023 2022 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (5件) (うち国際学会 1件)

[雑誌論文] モデルパラメータ間のKL情報量正則化に基づく非同一ロボット間への知識転移2021
- 著者名/発表者名
  藤井直希, 増山岳人
- 雑誌名
  
  日本ロボット学会誌
  
  巻: 39 号: 4 ページ: 379-382
- DOI
  10.7210/jrsj.39.379
- NAID
  130008043221
- ISSN
  0289-1824, 1884-7145
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 状態行動分布に基づくゴールサンプリングによる自動カリキュラム学習2023
- 著者名/発表者名
  山崎雅史、可知巧巳、増山岳人
- 学会等名
  ロボティクス・メカトロニクス講演会2023
- 関連する報告書
  2023 実施状況報告書
[学会発表] 自己方策を用いた他者の意図推定に基づくマルチエージェント強化学習2022
- 著者名/発表者名
  不破雅泰，増山岳人
- 学会等名
  ロボティクス・メカトロニクス講演会2022
- 関連する報告書
  2022 実施状況報告書
[学会発表] 強化学習における状態と行動に関するData Augmentationの検討2022
- 著者名/発表者名
  濱田ありさ，増山岳人
- 学会等名
  第23回計測自動制御学会システムインテグレーション部門講演会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021
- 著者名/発表者名
  Takashi Aota, Gakuto Masuyama
- 学会等名
  The 7th International Conference on Advanced Mechatronics
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021
- 著者名/発表者名
  菅田昇吾, 増山岳人
- 学会等名
  第39回日本ロボット学会学術講演会
- 関連する報告書
  2021 実施状況報告書

報酬関数の外挿による非同一な動作主体間での模倣学習

研究代表者

増山 岳人 名城大学, 理工学部, 准教授 (20707088)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] モデルパラメータ間のKL情報量正則化に基づく非同一ロボット間への知識転移2021

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] 状態行動分布に基づくゴールサンプリングによる自動カリキュラム学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 自己方策を用いた他者の意図推定に基づくマルチエージェント強化学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 強化学習における状態と行動に関するData Augmentationの検討2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 支配的な身体部位の探索によるグラフニューラ ルネットワークを用いた状態表現の獲得2021

著者名/発表者名

学会等名

関連する報告書

増山岳人名城大学, 理工学部, 准教授 (20707088)

[学会発表] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021