Reward extrapolation for imitation learning from a dissimilar agent
Project/Area Number |
21K12078
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Meijo University |
Principal Investigator |
増山 岳人 名城大学, 理工学部, 准教授 (20707088)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 強化学習 / 逆強化学習 / 外挿 / 報酬関数 |
Outline of Research at the Start |
ロボットによる観測対象の動作に対する模倣学習では,多くの場合,観測対象と学習主体であるロボットは同一,または同一視可能な身体と環境をもつことが暗黙的に仮定される.本研究では,観測対象の振る舞いを支配する''意図"の推定を介して,非同一な身体及び環境をもつ主体間での模倣学習手法の開発を目的とする.推定した''意図”を満足する動作を自律的に学習することで適応的な模倣機能の実現を目指す.
|
Outline of Annual Research Achievements |
本研究課題では,ロボットなどの身体をもつ学習主体を想定した,自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている.2022年度は,主に3つのアプローチについて検証,検討を行った. 1) 昨年度から開発してきた,教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った.特に,スキルによる外挿性能への影響を検証したが,これに関しては現時点で有力な仮説の着想には至っていない. 2) 研究計画において実施を予定していた,学習主体の身体,環境,タスクの関係性をモデル化するグラフ表現学習手法の開発に着手した.今年度は,状態情報と,人からのフィードバックによる表現学習により新たな状態を学習し,それらを結合し制御則のモデルへの入力とすることで強化学習の学習効率が向上可能であることを確認した. 3) 関数の式自体を陽に推定する,シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化を試みた.データの背後にある法則性を学習することによって外挿を図るアプローチである.まず,関数学習器への入力として,性能のよいデモンストレーション軌道を用いて関数を学習したところ,デモンストレーションと同等の性能をもつ方策が学習可能であることを確認した.そこで,先行研究によって外挿された報酬関数から得られた軌道について,実験的に検証を行った.ここで,先行研究ではデモンストレーションではなく,非最適な軌道を教師データとした直接的な模倣学習により得られる方策を利用する.この場合に学習された報酬関数の外挿性能はタスクに依存し,1つのタスクでは元の方策と同程度,別のタスクでは外挿が成功するという結果となった.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実績の概要で述べた3つのアプローチを中心に,報酬関数の外挿による模倣学習の実現に向けて研究に取り組んできた.いずれの方法においても一定の成果が得られている一方で,現時点では外挿性能のタスク依存性が強く,十分な一般性をもったアルゴリズムの開発には至っていない.これは,実際にはタスクというよりも身体構造による実行可能な動作パターンの違いが強く影響している可能性もあると考えている.また,1)についての検証は進んでいるものの当初予定から遅れて進捗している.
|
Strategy for Future Research Activity |
研究計画に大きな変更はないが,報酬関数の外挿が成立する条件についての解析は難航しているため,データ駆動形のアプローチに重きをおく方針で研究を進めていくことを検討している.
|
Report
(2 results)
Research Products
(5 results)