研究課題/領域番号 |
23K28140
|
補助金の研究課題番号 |
23H03450 (2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2023) |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
小区分60030:統計科学関連
合同審査対象区分:小区分60030:統計科学関連、小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
鶴岡 慶雅 東京大学, 大学院情報理工学系研究科, 教授 (50566362)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,680千円 (直接経費: 13,600千円、間接経費: 4,080千円)
2025年度: 5,720千円 (直接経費: 4,400千円、間接経費: 1,320千円)
2024年度: 5,720千円 (直接経費: 4,400千円、間接経費: 1,320千円)
2023年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
|
キーワード | 強化学習 / 階層強化学習 / 言語モデル / スキル / 深層学習 |
研究開始時の研究の概要 |
本研究プロジェクトでは、現実世界の意志決定問題、特に、完了までに多くのステップを必要とする長期タスクに対する深層強化学習の有効性を向上させるため、そのような問題に対して有効な階層強化学習手法の確立を目指す。具体的には、多様で有効なスキルを自動的に獲得し、さらにそれらを再利用可能にすることや、大規模言語モデルから得られる言語情報を活用することなどを通してエージェントの学習効率および汎化能力の向上を目指す。
|
研究実績の概要 |
本研究プロジェクトの目的である、完了までに多くのステップを有する長期タスクを遂行できるエージェントを実現するためには、方策の再利用性、すなわち、あるドメインで学習された方策を他のドメインで容易に再利用できることが重要である。たとえば、あるタスクに関してロボットAで学習した方策が、形状の異なるロボットBでも再利用できることが望ましい。そこで本研究プロジェクトでは、そのような、方策の再利用性を向上させるためのアプローチとして、異なるドメイン間で共用が可能な状態の潜在表現を学習する手法の研究および開発を行った。提案手法では、学習フェーズにおいて、いくつかのタスクに関してエキスパートによって作成された動作の軌跡があることを前提とし、それらの軌跡を利用して、異なるドメインの間で、状態の潜在表現のアライメント、すなわちタスクを遂行するうえで「同じ状態」が同じ潜在表現に対応付けががなされるように、状態や方策、およびそれらに関するエンコーダやデコーダの学習を行う。学習フェーズが終了し、転移元のドメインにおいて新たなタスクが与えられると、エンコーダやデコーダのパラメータは変化させず、共通の潜在空間において方策の学習を行う。このようにして学習された方策は、ドメイン間で共通の潜在表現に基づいているため、転移先のドメインにおいても再学習を行うことなく再利用することが可能となっている。本提案手法に関して、シミュレーション環境において評価実験を行った結果、ロボットや視点が異なるというドメインシフトの状況において、従来手法を上回る性能が得られることが示された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究プロジェクトの目的を達成するために重要な要素のひとつである、エージェントの方策の再利用性を向上させることに関して有望な研究成果が得られており、研究の進捗としてはおおむね順調といえる。
|
今後の研究の推進方策 |
本年度は、昨年度の研究成果をベースとし、さらに発展させることで、本研究プロジェクトの目的である、長期タスクの遂行が可能なエージェントの実現を目指す。
具体的には、上述した方策の再利用性の向上という課題に引き続き取り組むことに加えて、近年注目を集めている大規模言語モデルやvideo2textの技術を活用することで、有効な方策を効率的に獲得することのできるアプローチの開発を計画している。長期のプランニングが必要なタスクにおいては、与えられた目標に対して、それをどのようにサブタスクに分割するかを決定することが難しいという問題があったが、大規模な言語モデルをプランニングに活用することで、長期的な目標設定が必要なタスクをある程度実現できることが報告されており、本研究プロジェクトにおけるハイレベル方策の学習に活用できる可能性がある。
|