研究課題
本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本研究では、この実現の切り口として、変化に関する事前知識を活用した手法の検討を進めている。本年度は、報酬が時刻に対して周期的に変化する環境における強化学習について、関連研究者との議論をさらにすすめ、論文掲載に至った。またこの他に本年度は、次の二つの検討を行った。(1) 環境のダイナミクスが変化に対して適応・追従するための事前知識を用いた学習方式について検討を行なった。本方式は、環境のダイナミクス(状態遷移確率)を、ベイズ適応的マルコフ決定過程によってモデル化し、事前知識により事前分布を記述する方式である。これにより、「行動の良さ」に対する事前知識ではなく、「午前中は道Aが混んで渡れない」などという状態遷移に関する事前知識を記述し、利用することが可能となった。(2) 事故の発生を抑制することで試行錯誤の継続困難を回避する機能をもった学習方式、についても基本的な検討を行なった。本方式は、事故に関するセンサによって事故に近づいているか離れているかということは分かる対象に対して有効に機能する。状態遷移そのものについての事前知識はないが、その一部については事前知識を有するというケースである。
2: おおむね順調に進展している
本年度は、昨年度にひきつづいて、理論基盤の整備を行った。この内容について、5件の雑誌論文掲載及び掲載決定、4件の口頭発表(うち2件は、国際会議発表)を行い、関連研究者との議論を行った。
本補助事業の最終段階として、研究成果のまとめを行う。
平成26年度、研究が進む過程で、報酬を動的に変更するという本研究の考え方を利用した手法の着想を得たため、計画を変更し、この検討を行うこととした。このことにより、次年度に手法の評価および成果報告を行うこととしたため、未使用額が生じた。
次年度に研究成果の発表を行うこととし、未使用額はその経費に充てることとしたい。
すべて 2015 2014
すべて 雑誌論文 (5件) (うち査読あり 5件、 謝辞記載あり 2件) 学会発表 (4件)
Proceedings of the 10th Asian Control Conference 2015
巻: ASCC2015 ページ: 印刷中
電気学会 論文誌C
巻: 134-9 ページ: 1325-1332
電子情報通信学会論文誌 D
巻: J98-D ページ: 287-299
Proceedings of Joint 7th International Conference on Soft Computing and Intelligent Systems and 15th International Symposium on Advanced Intelligent Systems
巻: SCIS&ISIS2014 ページ: 801-806
USB Proceedings of the 11th International Conference on Modeling Decisions for Artificial Intelligence
巻: MDAI2014 ページ: 143-152