2021 年度実施状況報告書

報酬関数の外挿による非同一な動作主体間での模倣学習

研究課題

研究課題/領域番号	21K12078
研究機関	名城大学
研究代表者	増山岳人名城大学, 理工学部, 准教授 (20707088)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	強化学習 / 逆強化学習 / 外挿
研究実績の概要	非同一の身体・環境をもつ他者の観測データから，自身の問題空間においてタスクを実行可能な報酬関数の外挿を目的として研究を実施した．2021年度は特に先行研究において示された，単一エージェントの学習において外挿が成立する条件の調査及び外挿された報酬関数から学習される方策の性能向上を図った．外挿の基準となるデータはそれぞれの優劣がラベルづけられた軌道群である．この優劣のラベルの正確性が外挿性能に影響すると仮定し，シミュレーションを実施したところ，ラベルにノイズがある条件でも完全なラベルが与えられる条件と同程度の性能をもつ方策が学習される場合があることを確認した．この結果から，ラベルの正確性よりもどのような軌道をデータセットとして利用するかがより重要であるとの仮説をたてた．どのような軌道が外挿性能の向上に寄与するかは明らかでないが，直感的には学習主体に与えられるタスクに対して寄与し得るような，整合性のとれた動作であると考えられる（腕を振る，手を開くなど）．そこで，報酬関数推定に用いる軌道群を教師なしスキル学習で事前学習した方策からサンプルする，新たなアルゴリズムを開発した．ユーザは複数のスキルからもっとも優れたものを1つ選択する（実際には軌道を選択する）．スキルの潜在変数の類似度と，スキルからサンプルされる軌道の状態空間における類似度が対応すると仮定し，ユーザが選択したスキルとの類似度を軌道間の優劣のラベルとする．これにより得られたラベルづけられた軌道群から報酬関数の外挿が可能であり，従来手法を上回る性能を達成できることを複数の物理シミュレーションタスクで確認した．また，ニューラルネットワークから出力される報酬関数を単純な関数に回帰することの有効性も実験的に確認した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由報酬関数の外挿が可能となる条件を調査し，ランクの正確性以上にどのような軌道を用いるかが重要であることを経験的に確認できた．また，教師なしスキル学習からサンプルされる軌道を用いることで外挿性能の向上が可能であることが示唆された．これらは研究計画通り順調に進展した結果であり，またその結果から新たなアルゴリズムを開発することができたという点では順調である．ただし，理論解析については当初の想定通りに進められなかったため，上記の代替アプローチをとることとなった．報酬関数推定にシンボル回帰を利用するアプローチについては，調査を進めており概ね順調である．
今後の研究の推進方策	計画に大きな変更はないが，報酬関数に対する直接のシンボル回帰による外挿及び周期関数をモデルバイアスとして導入することでロコモーションタスクにおける外挿を図るアプローチについても追加で検討する予定である．
次年度使用額が生じた理由	新型コロナウイルス感染症の影響により旅費の計上がなくなった．また，購入した計算機が当初想定して価格より安価なものであった．主に以上の未使用額を次年度に繰り越し，計算機の追加による研究実施の効率化及び2021年度成果の学術雑誌への投稿に充てる．

研究成果
(3件)

すべて 2021

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件)

[雑誌論文] モデルパラメータ間のKL情報量正則化に基づく非同一ロボット間への知識転移2021
- 著者名/発表者名
  藤井直希, 増山岳人
- 雑誌名
  
  日本ロボット学会誌
  
  巻: 39 ページ: 379～382
- DOI
  10.7210/jrsj.39.379
- 査読あり / オープンアクセス
[学会発表] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021
- 著者名/発表者名
  Takashi Aota, Gakuto Masuyama
- 学会等名
  The 7th International Conference on Advanced Mechatronics
- 国際学会
[学会発表] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021
- 著者名/発表者名
  菅田昇吾, 増山岳人
- 学会等名
  第39回日本ロボット学会学術講演会

2021 年度 実施状況報告書

報酬関数の外挿による非同一な動作主体間での模倣学習

研究代表者

増山 岳人 名城大学, 理工学部, 准教授 (20707088)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] モデルパラメータ間のKL情報量正則化に基づく非同一ロボット間への知識転移2021

著者名/発表者名

雑誌名

DOI

[学会発表] Ranked-trajectory based recursive inverse reinforcement learning for extrapolation of reward function2021

著者名/発表者名

学会等名

[学会発表] 支配的な身体部位の探索によるグラフニューラ ルネットワークを用いた状態表現の獲得2021

著者名/発表者名

学会等名

2021 年度実施状況報告書

増山岳人名城大学, 理工学部, 准教授 (20707088)

[学会発表] 支配的な身体部位の探索によるグラフニューラルネットワークを用いた状態表現の獲得2021