本研究では、試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な学習方法を実現するための基礎理論を整備することを目的に、研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。この枠組みでは、学習主体であるエージェントはシステムの設計者が定めたルールに基づいて与えられる報酬を頼りに学習を進めていく。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの良さは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本年度、試行錯誤におけるふたつの時間(エピソードとステップ)に着目して、下記の研究を実施した。なお、ステップとは、学習主体が自身の状態を認識し行動を出力する1巡を表す単位である。エピソードとは、エージェントが行動を始めてから1回のタスクを達成するまでの一連のステップの列をあらわす単位である。 1.ステップごとに報酬が周期的に変化する環境における強化学習 ステップごとに報酬が周期的に変化していく環境における学習方法を提案した。数値実験によって、ステップごとに報酬を得られる状態が移り変わっていく環境において、提案手法が行動学習を可能にすることを明らかにした。 2.報酬を与えられる領域がエピソードごとに変化する環境における強化学習 タスクを達成する条件が変化してく環境における学習方法を提案した。数値実験によって、報酬を得るたびに徐々に難しいタスクになる環境において、提案手法が行動学習を可能にすることを明らかにした。
|