2023 年度実施状況報告書

報酬関数の外挿による非同一な動作主体間での模倣学習

研究課題

研究課題/領域番号	21K12078
研究機関	名城大学
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	強化学習 / 逆強化学習 / 外挿
研究実績の概要	本研究課題では，ロボットなどの身体をもつ学習主体を想定した，自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている． 2023年度は，制御問題における外挿という技術的課題に対して主に以下の3つのアプローチについて検討を行った． 1) 昨年度から引き続き，教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った．特に，データ長が不均一であり，ラベルのない非構造データを用いたスキル学習を導入することで，模倣学習に利用するデータセットに要求される条件を緩和可能であることが確認できた．また，他に2つのスキル学習手法についても有効性を検証し，一方の手法を利用することでベースラインとした報酬関数に対する類似性を大きく向上することができた． 2) 昨年度から引き続き，関数の式自体を陽に推定する，シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化について検証を進めた．状態及び行動を入力として報酬関数を推定したが，期待した性能の報酬関数を得るまでには至っていない．また，推定された関数の係数，演算子，変数の組み合わせについて分散が大きく，推定結果の安定性に課題があることを確認している． 3) 主にロコモーションの学習を想定した，方策（または方策及び価値関数）のモデルの活性化関数に，周期関数を導入するアプローチに関して研究開発を進めてきた．モデルバイアスによって方策学習において直接外挿を図る，これまでとは異なる方向性であるが，報酬関数の外挿との同時利用を想定したものである．活性化関数による周期表現に関する先行研究をベースに，強化学習問題に適した活性化関数及びモデルに関して検討を行い，学習効率が向上可能であることを確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由報酬関数の外挿を中心に，必要な基礎技術に関する開発を進めてきた．複数のアプローチで有効なアルゴリズムを検討しており，一定の成果は得られていると考える．しかし，学習結果の分散が大きい，タスク依存性が強いという点で改善の余地が残っている．そのため，異なるドメイン間での模倣学習という課題への取り組みが想定より後ろ倒しになっている．
今後の研究の推進方策	研究実績の概要の1)にて開発した報酬関数の外挿手法において，手動で設計された標準報酬関数と非常に類似した出力を与える報酬関数が推定できているにも関わらず，標準報酬関数を下回る学習結果となるという事例を確認しており，検証が必要であると考えている．この点に関しては，報酬関数を回帰するなど，何らかのスムージング処理をすることで，学習結果のばらつきが低減されると期待している．また，関数近似器への入力次元数が大きすぎることも学習の分散が大きい原因の1つだと考えている．そこで，事前学習で特徴抽出をしてから報酬関数推定をするアプローチを検討する．これらの対応により外挿手法の性能を向上した上で，異なるドメインのデータを使用した手法の開発に取り組む予定である．
次年度使用額が生じた理由	購入を予定していたロボットが円安の影響で，予算を超える額になっている．昨年度より予算執行を抑え，現状の計算機環境でアルゴリズム開発に注力していたが，2024年度以降は計画の変更は避けられないと考えている．安価な代替機を購入するか，実験プラットフォームの見直しを検討している．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] 状態行動分布に基づくゴールサンプリングによる自動カリキュラム学習2023
- 著者名/発表者名
  山崎雅史、可知巧巳、増山岳人
- 学会等名
  ロボティクス・メカトロニクス講演会2023