2013 Fiscal Year Research-status Report

報酬が動的に変化する環境における事前知識を活用する強化学習

Research Project

Project/Area Number	24760308
Research Institution	University of Tsukuba
Principal Investigator	澁谷長史筑波大学, システム情報系, 助教 (90582776)
Keywords	機械学習 / 強化学習
Research Abstract	本研究では、行動の効用が変化する環境における望ましい行動決定のための、効率的な強化学習法の実現をめざして研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの望ましいは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本研究では、この課題を解決する切り口として、変化に関する事前知識を活用した手法の検討を進めている。昨年度は、報酬が時刻に対して周期的に変化する環境における強化学習の萌芽的な検討を行った。この検討により、変化の周波数に関する事前知識を活用することによって、学習すべき行動価値関数を、複数の既知の正弦波数と、周波数ごとの未知の係数から構成できることが明らかになり、これによりこのような環境における学習の効率化が示唆された。本年度は、この結果を受け、ふたつの検討を行った。（１）関連研究者と議論を行いながら、報酬が時刻に対して周期的に変化する環境における強化学習について、理論的基盤を整備した。特に本研究における時刻・状態などの用語・概念を明確にした。また、正弦波の数に対する学習性能の変化について評価を行った。この研究の成果は、現在査読付き論文誌に投稿中である。（２）（１）を土台として、状態に依存して報酬が変化する環境における学習法についても検討した。これにより、従来の強化学習では直接学習することが困難であった回転運動の学習が可能になることが示唆された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は、昨年度の基礎的検討の土台のうえに、理論基盤の整備を行った。今回の整備により、来年度の応用研究の実施が容易になった。また、昨年度の成果を利用して、状態に依存して報酬が変化する環境に関する学習方式の検討にも着手できた。特にロボットの制御などにおいて、この環境における学習も重要な課題である。研究はおおむね順調に進展している。
Strategy for Future Research Activity	事業の最終年度にあたる来年度は、本研究で得られた成果を適用して、実証実験を行う。小型ロボットを購入し、歩行など周期的性質をもつ動作の学習に関する実験を行う。また、研究実績（２）で述べた方式をさらに推し進める。
Expenditure Plans for the Next FY Research Funding	理論の整理に、当初予想していたよりも時間がかかったため。実験用の小型ロボット、計算機、研究用資料などを購入する。

Research Products
(2 results)

All Presentation (2 results)

[Presentation] 事前知識を反映した状態遷移確率推定により環境変化に適応する強化学習2014
- Author(s)
  臼井翼, 澁谷長史
- Organizer
  第41回知能システムシンポジウム
- Place of Presentation
  筑波大学東京キャンパス（東京）
- Year and Date
  20140313-20140314
[Presentation] 繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案2013
- Author(s)
  田丸順基, 澁谷長史
- Organizer
  電気学会システム研究会
- Place of Presentation
  愛知県立大学サテライトキャンパス
- Year and Date
  20131124-20131124