• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2012 年度 実施状況報告書

報酬が動的に変化する環境における事前知識を活用する強化学習

研究課題

研究課題/領域番号 24760308
研究種目

若手研究(B)

研究機関筑波大学

研究代表者

澁谷 長史  筑波大学, システム情報系, 助教 (90582776)

研究期間 (年度) 2012-04-01 – 2015-03-31
キーワード機械学習 / 強化学習
研究概要

本研究では、試行錯誤のさなかに報酬が変化する環境において、変化に関する事前知識を活用した効率的な学習方法を実現するための基礎理論を整備することを目的に、研究を進めている。本研究が基礎におく強化学習は、自ら行動し経験を重ねることで振る舞いを獲得する枠組みである。この枠組みでは、学習主体であるエージェントはシステムの設計者が定めたルールに基づいて与えられる報酬を頼りに学習を進めていく。強化学習には、多くの潜在的アプリケーションが期待されている反面、「ある行動を選択することの良さは時間に対して不変である」という仮定があり、目標が移り変わっていくような対象を学習できないという本質的な課題がある。本年度、試行錯誤におけるふたつの時間(エピソードとステップ)に着目して、下記の研究を実施した。なお、ステップとは、学習主体が自身の状態を認識し行動を出力する1巡を表す単位である。エピソードとは、エージェントが行動を始めてから1回のタスクを達成するまでの一連のステップの列をあらわす単位である。
1.ステップごとに報酬が周期的に変化する環境における強化学習
ステップごとに報酬が周期的に変化していく環境における学習方法を提案した。数値実験によって、ステップごとに報酬を得られる状態が移り変わっていく環境において、提案手法が行動学習を可能にすることを明らかにした。
2.報酬を与えられる領域がエピソードごとに変化する環境における強化学習
タスクを達成する条件が変化してく環境における学習方法を提案した。数値実験によって、報酬を得るたびに徐々に難しいタスクになる環境において、提案手法が行動学習を可能にすることを明らかにした。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度は、ふたつの問題クラスをとりあげ基礎的な検討を行った。
この内容について2件の口頭発表を行い、関連研究者との議論を行った。初年度に実施すべき事項は達成された。

今後の研究の推進方策

具体的アプリケーションへの適用は最終年度での実施であったが、このアプリケーションの問題クラスの性質を明らかにする検討を先に繰り上げることで一層の推進を図る。

次年度の研究費の使用計画

計算機関連機器、研究用資料等に使用する。

  • 研究成果

    (2件)

すべて 2013 2012

すべて 学会発表 (2件)

  • [学会発表] ステップごとに報酬が周期的に変化する環境における強化学習の一考察2013

    • 著者名/発表者名
      澁谷長史
    • 学会等名
      第40回知能システムシンポジウム
    • 発表場所
      京都工芸繊維大学(京都府)
    • 年月日
      20130314-20130315
  • [学会発表] 報酬を与えられる領域が変化する環境における強化学習2012

    • 著者名/発表者名
      澁谷長史
    • 学会等名
      平成24年 度電気学会電子・情報・システム部門大会
    • 発表場所
      弘前大学(青森県)
    • 年月日
      20120905-20120907

URL: 

公開日: 2014-07-24  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi