2012 Fiscal Year Research-status Report

報酬が動的に変化する環境における事前知識を活用する強化学習

Research Project

Project/Area Number	24760308
Research Category	Grant-in-Aid for Young Scientists (B)
Research Institution	University of Tsukuba
Principal Investigator	澁谷長史筑波大学, システム情報系, 助教 (90582776)
Project Period (FY)	2012-04-01 – 2015-03-31
Keywords	機械学習 / 強化学習
Research Abstract	本研究では、試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な学習方法を実現するための基礎理論を整備することを目的に、研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。この枠組みでは、学習主体であるエージェントはシステムの設計者が定めたルールに基づいて与えられる報酬を頼りに学習を進めていく。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの良さは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本年度、試行錯誤におけるふたつの時間（エピソードとステップ）に着目して、下記の研究を実施した。なお、ステップとは、学習主体が自身の状態を認識し行動を出力する１巡を表す単位である。エピソードとは、エージェントが行動を始めてから１回のタスクを達成するまでの一連のステップの列をあらわす単位である。１．ステップごとに報酬が周期的に変化する環境における強化学習ステップごとに報酬が周期的に変化していく環境における学習方法を提案した。数値実験によって、ステップごとに報酬を得られる状態が移り変わっていく環境において、提案手法が行動学習を可能にすることを明らかにした。２．報酬を与えられる領域がエピソードごとに変化する環境における強化学習タスクを達成する条件が変化してく環境における学習方法を提案した。数値実験によって、報酬を得るたびに徐々に難しいタスクになる環境において、提案手法が行動学習を可能にすることを明らかにした。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は、ふたつの問題クラスをとりあげ基礎的な検討を行った。この内容について２件の口頭発表を行い、関連研究者との議論を行った。初年度に実施すべき事項は達成された。
Strategy for Future Research Activity	具体的アプリケーションへの適用は最終年度での実施であったが、このアプリケーションの問題クラスの性質を明らかにする検討を先に繰り上げることで一層の推進を図る。
Expenditure Plans for the Next FY Research Funding	計算機関連機器、研究用資料等に使用する。

Research Products
(2 results)

All Presentation (2 results)

[Presentation] ステップごとに報酬が周期的に変化する環境における強化学習の一考察2013
- Author(s)
  澁谷長史
- Organizer
  第４０回知能システムシンポジウム
- Place of Presentation
  京都工芸繊維大学（京都府）
- Year and Date
  20130314-20130315
[Presentation] 報酬を与えられる領域が変化する環境における強化学習2012
- Author(s)
  澁谷長史
- Organizer
  平成２４年度電気学会電子・情報・システム部門大会
- Place of Presentation
  弘前大学（青森県）
- Year and Date
  20120905-20120907