2012 Fiscal Year Research-status Report
報酬が動的に変化する環境における事前知識を活用する強化学習
Project/Area Number |
24760308
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 機械学習 / 強化学習 |
Research Abstract |
本研究では、試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な学習方法を実現するための基礎理論を整備することを目的に、研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。この枠組みでは、学習主体であるエージェントはシステムの設計者が定めたルールに基づいて与えられる報酬を頼りに学習を進めていく。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの良さは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本年度、試行錯誤におけるふたつの時間(エピソードとステップ)に着目して、下記の研究を実施した。なお、ステップとは、学習主体が自身の状態を認識し行動を出力する1巡を表す単位である。エピソードとは、エージェントが行動を始めてから1回のタスクを達成するまでの一連のステップの列をあらわす単位である。 1.ステップごとに報酬が周期的に変化する環境における強化学習 ステップごとに報酬が周期的に変化していく環境における学習方法を提案した。数値実験によって、ステップごとに報酬を得られる状態が移り変わっていく環境において、提案手法が行動学習を可能にすることを明らかにした。 2.報酬を与えられる領域がエピソードごとに変化する環境における強化学習 タスクを達成する条件が変化してく環境における学習方法を提案した。数値実験によって、報酬を得るたびに徐々に難しいタスクになる環境において、提案手法が行動学習を可能にすることを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、ふたつの問題クラスをとりあげ基礎的な検討を行った。 この内容について2件の口頭発表を行い、関連研究者との議論を行った。初年度に実施すべき事項は達成された。
|
Strategy for Future Research Activity |
具体的アプリケーションへの適用は最終年度での実施であったが、このアプリケーションの問題クラスの性質を明らかにする検討を先に繰り上げることで一層の推進を図る。
|
Expenditure Plans for the Next FY Research Funding |
計算機関連機器、研究用資料等に使用する。
|