2014 Fiscal Year Research-status Report
報酬が動的に変化する環境における事前知識を活用する強化学習
Project/Area Number |
24760308
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Project Period (FY) |
2012-04-01 – 2016-03-31
|
Keywords | 機械学習 / 強化学習 |
Outline of Annual Research Achievements |
本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本研究では、この実現の切り口として、変化に関する事前知識を活用した手法の検討を進めている。本年度は、報酬が時刻に対して周期的に変化する環境における強化学習について、関連研究者との議論をさらにすすめ、論文掲載に至った。またこの他に本年度は、次の二つの検討を行った。
(1) 環境のダイナミクスが変化に対して適応・追従するための事前知識を用いた学習方式について検討を行なった。本方式は、環境のダイナミクス(状態遷移確率)を、ベイズ適応的マルコフ決定過程によってモデル化し、事前知識により事前分布を記述する方式である。これにより、「行動の良さ」に対する事前知識ではなく、「午前中は道Aが混んで渡れない」などという状態遷移に関する事前知識を記述し、利用することが可能となった。
(2) 事故の発生を抑制することで試行錯誤の継続困難を回避する機能をもった学習方式、についても基本的な検討を行なった。本方式は、事故に関するセンサによって事故に近づいているか離れているかということは分かる対象に対して有効に機能する。状態遷移そのものについての事前知識はないが、その一部については事前知識を有するというケースである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、昨年度にひきつづいて、理論基盤の整備を行った。 この内容について、5件の雑誌論文掲載及び掲載決定、4件の口頭発表(うち2件は、国際会議発表)を行い、関連研究者との議論を行った。
|
Strategy for Future Research Activity |
本補助事業の最終段階として、研究成果のまとめを行う。
|
Causes of Carryover |
平成26年度、研究が進む過程で、報酬を動的に変更するという本研究の考え方を利用した手法の着想を得たため、計画を変更し、この検討を行うこととした。このことにより、次年度に手法の評価および成果報告を行うこととしたため、未使用額が生じた。
|
Expenditure Plan for Carryover Budget |
次年度に研究成果の発表を行うこととし、未使用額はその経費に充てることとしたい。
|
Research Products
(9 results)