研究課題
本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題があり、本研究では、この実現の切り口として、変化に関する事前知識を活用した手法の検討を進めてきた。最終年度である本年度は、これまでの手法を発展させ、方位に対する周期性に着目した学習方式を提案し、国際会議論文として発表した。具体的には、行動価値関数を方位に依存する部分と方位に依存しない部分に分け、後者についてのみ学習することで、高速な学習を実現した。また、 事故の発生を抑制することで試行錯誤の継続困難を回避する機能をもった学習方式、についても、国際会議論文として発表した。
すべて 2015
すべて 雑誌論文 (2件) (うち査読あり 1件) 学会発表 (2件)
Proceedings of the 10th Asian Control Conference 2015 (ASCC 2015)
巻: ASCC2015 ページ: 2468--2473
Proceedings on the 16th International Symposium on Advanced Intelligent Systems
巻: ISIS2015 ページ: 1091-1098