2023 Fiscal Year Research-status Report
Development of Reinfrocement Learning Algorithm and Intrinsic Rewards for Meta-models
Project/Area Number |
23K18476
|
Research Institution | The University of Tokyo |
Principal Investigator |
長 隆之 東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
|
Project Period (FY) |
2023-06-30 – 2025-03-31
|
Keywords | 深層強化学習 / オフライン強化学習 / 内的報酬 / few-shot適応 |
Outline of Annual Research Achievements |
本研究において,探索を行いデータを収集する方策と,集められたデータから新しいタスクに適応するためのメタモデルとしての方策は異なるものになる。よって本研究におけるメタモデルの学習は,事前に収集されたデータから学習を行うオフライン強化学習として定式化される。そこで,事前に収集された多様なデータから,複数の挙動を抽出するためのオフライン強化学習アルゴリズムを開発した。このようにして抽出された挙動は,新たなタスクに適応するために必要なレパートリーとして用いることができる。ここでは,相互情報量に基づいた内的な報酬を最大化する強化学習アルゴリズムを用いて多様な挙動を含むデータセットを構築し,開発したアルゴリズムを評価した。シミュレーションによる評価の結果,開発したアルゴリズムによって多様な挙動を学習することが定性的かつ定量的に示された。 加えて,マルチエージェント強化学習において,内的報酬を用いて自律的に多様な行動を創発させることができるか,そして多様な行動を創発させることができるとどのような効果が得られるかについて検討した。マルチエージェント強化学習においては,2つのエージェントが協調して動作する場合,パートナーとなるエージェントの挙動が変化すると,メインのエージェントのパフォーマンスが急激に低下することが知られている。本年度の成果の一つでは,介護タスクの文脈において,介護ロボットと被介護者の方策を同時に訓練させる際,被介護者の方策に内的な報酬を用いることで,多様な行動を創発させた。これにより,被介護者の多様な反応に対応できる介護ロボットの方策を得られることを示した。このように訓練されたメインのエージェントの方策は,様々なパートナーに適応するためのメタモデルとして扱える可能性を秘めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度開発したオフライン強化学習アルゴリズムを用いることで,シミュレーションにおいて,一回の学習で複数の挙動を学習できることが確認できている。例えば,多様な歩行動作を学習することで,エージェントの体形(リンクの長さ等)に変化があった場合でも,少ない試行で適応することができることを示している。このようなモデルはまさに本研究で目指していたメタモデルとして扱うことができる。本年度取り組んだ,複数の挙動を学習するオフライン強化学習に関する成果は,年度末にInternational Conference on Machine Learning (ICML)に投稿され,2024年5月の時点で採択されている。ICMLは機械学習全般に関するトップの国際会議であり,一定の成果が得られたといえる。本年度に開発したアルゴリズムは汎用的なものであり,様々な形で発展させることができると考える。また,マルチエージェント強化学習において内的な報酬を用いることに関する成果は,ロボットの国際会議IEEE Conference on Robotics and Automation(ICRA)に採択され,2024年5月に発表される予定である。こちらも,マルチエージェント強化学習における内的な報酬および多様な挙動の創発の効果を確認することができたといえ,一定の成果を上げることができたと考える。以上のことから,「おおむね順調に進展している」と判断する。
|
Strategy for Future Research Activity |
本年度は,内的な報酬に基づいて収集されたデータからメタモデルに相当する方策を学習するためのオフライン強化学習アルゴリズムを開発することができた。次年度は,より効果的な探索を可能にする内的な報酬を開発する。具体的には,現在は相互情報量の変分下限を利用した内的報酬を用いているが,別の形式を模索する。相互情報量の変分下限に基づく内的報酬を用いると一定程度多様な方策を得ることができるが,必ずしも状態行動空間を網羅するように探索を行えるわけではない。Wasserstein距離の活用などを考慮した,新しい内的な報酬の開発を目指す。これにより,その後に続くオフライン強化学習などを効率化することを実現する。
|