2021 Fiscal Year Research-status Report

Reward extrapolation for imitation learning from a dissimilar agent

Research Project

Project/Area Number	21K12078
Research Institution	Meijo University
Principal Investigator	増山岳人名城大学, 理工学部, 准教授 (20707088)
Project Period (FY)	2021-04-01 – 2024-03-31
Keywords	強化学習 / 逆強化学習 / 外挿
Outline of Annual Research Achievements	非同一の身体・環境をもつ他者の観測データから，自身の問題空間においてタスクを実行可能な報酬関数の外挿を目的として研究を実施した．2021年度は特に先行研究において示された，単一エージェントの学習において外挿が成立する条件の調査及び外挿された報酬関数から学習される方策の性能向上を図った．外挿の基準となるデータはそれぞれの優劣がラベルづけられた軌道群である．この優劣のラベルの正確性が外挿性能に影響すると仮定し，シミュレーションを実施したところ，ラベルにノイズがある条件でも完全なラベルが与えられる条件と同程度の性能をもつ方策が学習される場合があることを確認した．この結果から，ラベルの正確性よりもどのような軌道をデータセットとして利用するかがより重要であるとの仮説をたてた．どのような軌道が外挿性能の向上に寄与するかは明らかでないが，直感的には学習主体に与えられるタスクに対して寄与し得るような，整合性のとれた動作であると考えられる（腕を振る，手を開くなど）．そこで，報酬関数推定に用いる軌道群を教師なしスキル学習で事前学習した方策からサンプルする，新たなアルゴリズムを開発した．ユーザは複数のスキルからもっとも優れたものを1つ選択する（実際には軌道を選択する）．スキルの潜在変数の類似度と，スキルからサンプルされる軌道の状態空間における類似度が対応すると仮定し，ユーザが選択したスキルとの類似度を軌道間の優劣のラベルとする．これにより得られたラベルづけられた軌道群から報酬関数の外挿が可能であり，従来手法を上回る性能を達成できることを複数の物理シミュレーションタスクで確認した．また，ニューラルネットワークから出力される報酬関数を単純な関数に回帰することの有効性も実験的に確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 報酬関数の外挿が可能となる条件を調査し，ランクの正確性以上にどのような軌道を用いるかが重要であることを経験的に確認できた．また，教師なしスキル学習からサンプルされる軌道を用いることで外挿性能の向上が可能であることが示唆された．これらは研究計画通り順調に進展した結果であり，またその結果から新たなアルゴリズムを開発することができたという点では順調である．ただし，理論解析については当初の想定通りに進められなかったため，上記の代替アプローチをとることとなった．報酬関数推定にシンボル回帰を利用するアプローチについては，調査を進めており概ね順調である．
Strategy for Future Research Activity	計画に大きな変更はないが，報酬関数に対する直接のシンボル回帰による外挿及び周期関数をモデルバイアスとして導入することでロコモーションタスクにおける外挿を図るアプローチについても追加で検討する予定である．
Causes of Carryover	新型コロナウイルス感染症の影響により旅費の計上がなくなった．また，購入した計算機が当初想定して価格より安価なものであった．主に以上の未使用額を次年度に繰り越し，計算機の追加による研究実施の効率化及び2021年度成果の学術雑誌への投稿に充てる．