試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な強化学習方法を実現することである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、時間とともに性質が変化する対象を学習できないという本質的な課題がある。本研究では、この実現の切り口として、変化に関する事前知識を活用した手法について研究を進めた。環境にあわせた事前知識を用いて、時間に対して報酬が周期性を持つ環境、方位に対して報酬が周期性を持つ環境、状態遷移確率が変化する環境などのための学習方式を明らかにした。
|