Project/Area Number |
21K12078
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Meijo University |
Principal Investigator |
増山 岳人 名城大学, 理工学部, 准教授 (20707088)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 強化学習 / 逆強化学習 / 外挿 / 報酬関数 |
Outline of Research at the Start |
ロボットによる観測対象の動作に対する模倣学習では,多くの場合,観測対象と学習主体であるロボットは同一,または同一視可能な身体と環境をもつことが暗黙的に仮定される.本研究では,観測対象の振る舞いを支配する''意図"の推定を介して,非同一な身体及び環境をもつ主体間での模倣学習手法の開発を目的とする.推定した''意図”を満足する動作を自律的に学習することで適応的な模倣機能の実現を目指す.
|
Outline of Annual Research Achievements |
本研究課題では,ロボットなどの身体をもつ学習主体を想定した,自身と異なる身体をもつ他者の動作の観測に基づく模倣学習手法の開発を目的としている. 2023年度は,制御問題における外挿という技術的課題に対して主に以下の3つのアプローチについて検討を行った. 1) 昨年度から引き続き,教師なしスキル学習を利用した報酬関数外挿手法についての検証を行った.特に,データ長が不均一であり,ラベルのない非構造データを用いたスキル学習を導入することで,模倣学習に利用するデータセットに要求される条件を緩和可能であることが確認できた.また,他に2つのスキル学習手法についても有効性を検証し,一方の手法を利用することでベースラインとした報酬関数に対する類似性を大きく向上することができた. 2) 昨年度から引き続き,関数の式自体を陽に推定する,シンボル回帰による関数学習器を用いた直接的な報酬関数のモデル化について検証を進めた.状態及び行動を入力として報酬関数を推定したが,期待した性能の報酬関数を得るまでには至っていない.また,推定された関数の係数,演算子,変数の組み合わせについて分散が大きく,推定結果の安定性に課題があることを確認している. 3) 主にロコモーションの学習を想定した,方策(または方策及び価値関数)のモデルの活性化関数に,周期関数を導入するアプローチに関して研究開発を進めてきた.モデルバイアスによって方策学習において直接外挿を図る,これまでとは異なる方向性であるが,報酬関数の外挿との同時利用を想定したものである.活性化関数による周期表現に関する先行研究をベースに,強化学習問題に適した活性化関数及びモデルに関して検討を行い,学習効率が向上可能であることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
報酬関数の外挿を中心に,必要な基礎技術に関する開発を進めてきた.複数のアプローチで有効なアルゴリズムを検討しており,一定の成果は得られていると考える.しかし,学習結果の分散が大きい,タスク依存性が強いという点で改善の余地が残っている.そのため,異なるドメイン間での模倣学習という課題への取り組みが想定より後ろ倒しになっている.
|
Strategy for Future Research Activity |
研究実績の概要の1)にて開発した報酬関数の外挿手法において,手動で設計された標準報酬関数と非常に類似した出力を与える報酬関数が推定できているにも関わらず,標準報酬関数を下回る学習結果となるという事例を確認しており,検証が必要であると考えている.この点に関しては,報酬関数を回帰するなど,何らかのスムージング処理をすることで,学習結果のばらつきが低減されると期待している.また,関数近似器への入力次元数が大きすぎることも学習の分散が大きい原因の1つだと考えている.そこで,事前学習で特徴抽出をしてから報酬関数推定をするアプローチを検討する. これらの対応により外挿手法の性能を向上した上で,異なるドメインのデータを使用した手法の開発に取り組む予定である.
|