2013 Fiscal Year Research-status Report
報酬が動的に変化する環境における事前知識を活用する強化学習
Project/Area Number |
24760308
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Keywords | 機械学習 / 強化学習 |
Research Abstract |
本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本研究では、この課題を解決する切り口として、変化に関する事前知識を活用した手法の検討を進めている。昨年度は、報酬が時刻に対して周期的に変化する環境における強化学習の萌芽的な検討を行った。この検討により、変化の周波数に関する事前知識を活用することによって、学習すべき行動価値関数を、複数の既知の正弦波数と、周波数ごとの未知の係数から構成できることが明らかになり、これによりこのような環境における学習の効率化が示唆された。本年度は、この結果を受け、ふたつの検討を行った。 (1)関連研究者と議論を行いながら、報酬が時刻に対して周期的に変化する環境における強化学習について、理論的基盤を整備した。特に本研究における時刻・状態などの用語・概念を明確にした。また、正弦波の数に対する学習性能の変化について評価を行った。この研究の成果は、現在査読付き論文誌に投稿中である。 (2)(1)を土台として、状態に依存して報酬が変化する環境における学習法についても検討した。これにより、従来の強化学習では直接学習することが困難であった回転運動の学習が可能になることが示唆された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、昨年度の基礎的検討の土台のうえに、理論基盤の整備を行った。今回の整備により、来年度の応用研究の実施が容易になった。また、昨年度の成果を利用して、状態に依存して報酬が変化する環境に関する学習方式の検討にも着手できた。特にロボットの制御などにおいて、この環境における学習も重要な課題である。研究はおおむね順調に進展している。
|
Strategy for Future Research Activity |
事業の最終年度にあたる来年度は、本研究で得られた成果を適用して、実証実験を行う。小型ロボットを購入し、歩行など周期的性質をもつ動作の学習に関する実験を行う。また、研究実績(2)で述べた方式をさらに推し進める。
|
Expenditure Plans for the Next FY Research Funding |
理論の整理に、当初予想していたよりも時間がかかったため。 実験用の小型ロボット、計算機、研究用資料などを購入する。
|
Research Products
(2 results)