Development of Reinfrocement Learning Algorithm and Intrinsic Rewards for Meta-models

Research Project

Project/Area Number	23K18476
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 61:Human informatics and related fields
Research Institution	The University of Tokyo
Principal Investigator	長隆之東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
Project Period (FY)	2023-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥5,070,000 (Direct Cost: ¥3,900,000、Indirect Cost: ¥1,170,000)
Keywords	深層強化学習 / オフライン強化学習 / 内的報酬 / few-shot適応 / メタモデル
Outline of Research at the Start	試行錯誤を通して学習を行うAIに通常用いられているのが強化学習と呼ばれるアルゴリズムである．強化学習は，自律的な学習を実現するアプローチとして期待される一方で，行動の良しあしを定量化する報酬関数を適切に設計しないと適切に機能しない．一方で人間は，内的な好奇心をもって自律的に行動することで，様々な知識を獲得し効率よくスキルを学ぶことができる．本研究では，人間に見られるような自律的な探索とスキルの蓄積を実現することを目指し，自律的な探索を実現する内的報酬を構築し，経験を蓄積するメタモデルを学習するアルゴリズムを開発する．
Outline of Annual Research Achievements	本研究において，探索を行いデータを収集する方策と，集められたデータから新しいタスクに適応するためのメタモデルとしての方策は異なるものになる。よって本研究におけるメタモデルの学習は，事前に収集されたデータから学習を行うオフライン強化学習として定式化される。そこで，事前に収集された多様なデータから，複数の挙動を抽出するためのオフライン強化学習アルゴリズムを開発した。このようにして抽出された挙動は，新たなタスクに適応するために必要なレパートリーとして用いることができる。ここでは，相互情報量に基づいた内的な報酬を最大化する強化学習アルゴリズムを用いて多様な挙動を含むデータセットを構築し，開発したアルゴリズムを評価した。シミュレーションによる評価の結果，開発したアルゴリズムによって多様な挙動を学習することが定性的かつ定量的に示された。加えて，マルチエージェント強化学習において，内的報酬を用いて自律的に多様な行動を創発させることができるか，そして多様な行動を創発させることができるとどのような効果が得られるかについて検討した。マルチエージェント強化学習においては，2つのエージェントが協調して動作する場合，パートナーとなるエージェントの挙動が変化すると，メインのエージェントのパフォーマンスが急激に低下することが知られている。本年度の成果の一つでは，介護タスクの文脈において，介護ロボットと被介護者の方策を同時に訓練させる際，被介護者の方策に内的な報酬を用いることで，多様な行動を創発させた。これにより，被介護者の多様な反応に対応できる介護ロボットの方策を得られることを示した。このように訓練されたメインのエージェントの方策は，様々なパートナーに適応するためのメタモデルとして扱える可能性を秘めている。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度開発したオフライン強化学習アルゴリズムを用いることで，シミュレーションにおいて，一回の学習で複数の挙動を学習できることが確認できている。例えば，多様な歩行動作を学習することで，エージェントの体形（リンクの長さ等）に変化があった場合でも，少ない試行で適応することができることを示している。このようなモデルはまさに本研究で目指していたメタモデルとして扱うことができる。本年度取り組んだ，複数の挙動を学習するオフライン強化学習に関する成果は，年度末にInternational Conference on Machine Learning (ICML)に投稿され，2024年5月の時点で採択されている。ICMLは機械学習全般に関するトップの国際会議であり，一定の成果が得られたといえる。本年度に開発したアルゴリズムは汎用的なものであり，様々な形で発展させることができると考える。また，マルチエージェント強化学習において内的な報酬を用いることに関する成果は，ロボットの国際会議IEEE Conference on Robotics and Automation(ICRA)に採択され，2024年5月に発表される予定である。こちらも，マルチエージェント強化学習における内的な報酬および多様な挙動の創発の効果を確認することができたといえ，一定の成果を上げることができたと考える。以上のことから，「おおむね順調に進展している」と判断する。
Strategy for Future Research Activity	本年度は，内的な報酬に基づいて収集されたデータからメタモデルに相当する方策を学習するためのオフライン強化学習アルゴリズムを開発することができた。次年度は，より効果的な探索を可能にする内的な報酬を開発する。具体的には，現在は相互情報量の変分下限を利用した内的報酬を用いているが，別の形式を模索する。相互情報量の変分下限に基づく内的報酬を用いると一定程度多様な方策を得ることができるが，必ずしも状態行動空間を網羅するように探索を行えるわけではない。Wasserstein距離の活用などを考慮した，新しい内的な報酬の開発を目指す。これにより，その後に続くオフライン強化学習などを効率化することを実現する。

Report

(1 results)

2023 Research-status Report

Research Products
(2 results)

All 2024

All Presentation (2 results) (of which Int'l Joint Research: 2 results)

[Presentation] Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning2024
- Author(s)
  Takayuki Osa, Tatsuya Harada
- Organizer
  The International Conference on Machine Learning (ICML)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks2024
- Author(s)
  Takayuki Osa, Tatsuya Harada
- Organizer
  The IEEE International Conferences on Robotics and Automation (ICRA)
- Related Report
  2023 Research-status Report
- Int'l Joint Research

Development of Reinfrocement Learning Algorithm and Intrinsic Rewards for Meta-models

Principal Investigator

長 隆之 東京大学, 大学院情報理工学系研究科, 准教授 (50804663)

¥6,370,000 (Direct Cost: ¥4,900,000、Indirect Cost: ¥1,470,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning2024

Author(s)

Organizer

Related Report

[Presentation] Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks2024

Author(s)

Organizer

Related Report

長隆之東京大学, 大学院情報理工学系研究科, 准教授 (50804663)