メタモデルを創発する内的報酬と強化学習アルゴリズムの構築

研究課題

研究課題/領域番号	23K18476
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分61:人間情報学およびその関連分野
研究機関	東京大学
研究代表者	長隆之東京大学, 大学院情報理工学系研究科, 准教授 (50804663)
研究期間 (年度)	2023-06-30 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2024年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2023年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
キーワード	深層強化学習 / オフライン強化学習 / 内的報酬 / few-shot適応 / メタモデル
研究開始時の研究の概要	試行錯誤を通して学習を行うAIに通常用いられているのが強化学習と呼ばれるアルゴリズムである．強化学習は，自律的な学習を実現するアプローチとして期待される一方で，行動の良しあしを定量化する報酬関数を適切に設計しないと適切に機能しない．一方で人間は，内的な好奇心をもって自律的に行動することで，様々な知識を獲得し効率よくスキルを学ぶことができる．本研究では，人間に見られるような自律的な探索とスキルの蓄積を実現することを目指し，自律的な探索を実現する内的報酬を構築し，経験を蓄積するメタモデルを学習するアルゴリズムを開発する．
研究実績の概要	本研究において，探索を行いデータを収集する方策と，集められたデータから新しいタスクに適応するためのメタモデルとしての方策は異なるものになる。よって本研究におけるメタモデルの学習は，事前に収集されたデータから学習を行うオフライン強化学習として定式化される。そこで，事前に収集された多様なデータから，複数の挙動を抽出するためのオフライン強化学習アルゴリズムを開発した。このようにして抽出された挙動は，新たなタスクに適応するために必要なレパートリーとして用いることができる。ここでは，相互情報量に基づいた内的な報酬を最大化する強化学習アルゴリズムを用いて多様な挙動を含むデータセットを構築し，開発したアルゴリズムを評価した。シミュレーションによる評価の結果，開発したアルゴリズムによって多様な挙動を学習することが定性的かつ定量的に示された。加えて，マルチエージェント強化学習において，内的報酬を用いて自律的に多様な行動を創発させることができるか，そして多様な行動を創発させることができるとどのような効果が得られるかについて検討した。マルチエージェント強化学習においては，2つのエージェントが協調して動作する場合，パートナーとなるエージェントの挙動が変化すると，メインのエージェントのパフォーマンスが急激に低下することが知られている。本年度の成果の一つでは，介護タスクの文脈において，介護ロボットと被介護者の方策を同時に訓練させる際，被介護者の方策に内的な報酬を用いることで，多様な行動を創発させた。これにより，被介護者の多様な反応に対応できる介護ロボットの方策を得られることを示した。このように訓練されたメインのエージェントの方策は，様々なパートナーに適応するためのメタモデルとして扱える可能性を秘めている。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度開発したオフライン強化学習アルゴリズムを用いることで，シミュレーションにおいて，一回の学習で複数の挙動を学習できることが確認できている。例えば，多様な歩行動作を学習することで，エージェントの体形（リンクの長さ等）に変化があった場合でも，少ない試行で適応することができることを示している。このようなモデルはまさに本研究で目指していたメタモデルとして扱うことができる。本年度取り組んだ，複数の挙動を学習するオフライン強化学習に関する成果は，年度末にInternational Conference on Machine Learning (ICML)に投稿され，2024年5月の時点で採択されている。ICMLは機械学習全般に関するトップの国際会議であり，一定の成果が得られたといえる。本年度に開発したアルゴリズムは汎用的なものであり，様々な形で発展させることができると考える。また，マルチエージェント強化学習において内的な報酬を用いることに関する成果は，ロボットの国際会議IEEE Conference on Robotics and Automation(ICRA)に採択され，2024年5月に発表される予定である。こちらも，マルチエージェント強化学習における内的な報酬および多様な挙動の創発の効果を確認することができたといえ，一定の成果を上げることができたと考える。以上のことから，「おおむね順調に進展している」と判断する。
今後の研究の推進方策	本年度は，内的な報酬に基づいて収集されたデータからメタモデルに相当する方策を学習するためのオフライン強化学習アルゴリズムを開発することができた。次年度は，より効果的な探索を可能にする内的な報酬を開発する。具体的には，現在は相互情報量の変分下限を利用した内的報酬を用いているが，別の形式を模索する。相互情報量の変分下限に基づく内的報酬を用いると一定程度多様な方策を得ることができるが，必ずしも状態行動空間を網羅するように探索を行えるわけではない。Wasserstein距離の活用などを考慮した，新しい内的な報酬の開発を目指す。これにより，その後に続くオフライン強化学習などを効率化することを実現する。