• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

報酬が動的に変化する環境における事前知識を活用する強化学習

Research Project

Project/Area Number 24760308
Research Category

Grant-in-Aid for Young Scientists (B)

Research InstitutionUniversity of Tsukuba

Principal Investigator

澁谷 長史  筑波大学, システム情報系, 助教 (90582776)

Project Period (FY) 2012-04-01 – 2015-03-31
Keywords機械学習 / 強化学習
Research Abstract

本研究では、試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な学習方法を実現するための基礎理論を整備することを目的に、研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。この枠組みでは、学習主体であるエージェントはシステムの設計者が定めたルールに基づいて与えられる報酬を頼りに学習を進めていく。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの良さは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本年度、試行錯誤におけるふたつの時間(エピソードとステップ)に着目して、下記の研究を実施した。なお、ステップとは、学習主体が自身の状態を認識し行動を出力する1巡を表す単位である。エピソードとは、エージェントが行動を始めてから1回のタスクを達成するまでの一連のステップの列をあらわす単位である。
1.ステップごとに報酬が周期的に変化する環境における強化学習
ステップごとに報酬が周期的に変化していく環境における学習方法を提案した。数値実験によって、ステップごとに報酬を得られる状態が移り変わっていく環境において、提案手法が行動学習を可能にすることを明らかにした。
2.報酬を与えられる領域がエピソードごとに変化する環境における強化学習
タスクを達成する条件が変化してく環境における学習方法を提案した。数値実験によって、報酬を得るたびに徐々に難しいタスクになる環境において、提案手法が行動学習を可能にすることを明らかにした。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度は、ふたつの問題クラスをとりあげ基礎的な検討を行った。
この内容について2件の口頭発表を行い、関連研究者との議論を行った。初年度に実施すべき事項は達成された。

Strategy for Future Research Activity

具体的アプリケーションへの適用は最終年度での実施であったが、このアプリケーションの問題クラスの性質を明らかにする検討を先に繰り上げることで一層の推進を図る。

Expenditure Plans for the Next FY Research Funding

計算機関連機器、研究用資料等に使用する。

  • Research Products

    (2 results)

All 2013 2012

All Presentation (2 results)

  • [Presentation] ステップごとに報酬が周期的に変化する環境における強化学習の一考察2013

    • Author(s)
      澁谷長史
    • Organizer
      第40回知能システムシンポジウム
    • Place of Presentation
      京都工芸繊維大学(京都府)
    • Year and Date
      20130314-20130315
  • [Presentation] 報酬を与えられる領域が変化する環境における強化学習2012

    • Author(s)
      澁谷長史
    • Organizer
      平成24年 度電気学会電子・情報・システム部門大会
    • Place of Presentation
      弘前大学(青森県)
    • Year and Date
      20120905-20120907

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi