2009 年度実績報告書

分散知能実現のための頑健・高速・汎用な強化学習アルゴリズムの研究

研究課題

研究課題/領域番号	07J07695
研究機関	横浜国立大学
研究代表者	澁谷長史横浜国立大学, 工学府, 特別研究員(DC1)
キーワード	強化学習 / 不完全知覚問題
研究概要	本年度は,昨年度に引き続いて,不完全知覚問題を含む環境における強化学習アルゴリズムについての研究を行った.強化学習とは,学習の主体であるエージェントが自ら行動し経験を重ねることで振る舞いを獲得する枠組みである.本研究ではこれまでに,不完全知覚問題に対して,複素強化学習とよばれる枠組みを提案している.この枠組みにおいて,複素化された行動価値は価値の大きさだけではなく位相情報を表現することができる.本年度は提案するアルゴリズムの汎用性を高めるための負の報酬の取り扱いに関する研究と,頑健性を評価するための学習可能な条件の導出に関する研究について具体的に取り組んだ.負の報酬とは,強化学習において罰を取り扱うための概念である.一般に報酬とは望ましい行動の選択を助長するための信号である.罰とは望ましくない行動の選択を抑制するための信号である.2種類の信号を使い分けることにより,早く効率的な学習を行うことができる,罰による学習を実現することは,提案手法をより汎用的に用いるうえで必須の技術である.しかし,これまでの複素強化学習の手法では負の報酬(罰)を扱うことを想定しておらず,罰を用いた学習を行うことができなかった.そこで,本研究では,複素強化学習において負の報酬が与える影響を明らかにし,負の報酬を用いるための手法について検討した.次に,学習可能な条件の導出については,アルゴリズムの頑健性を評価するうえで非常に重要な問題である.Q-learningやProfit Sharingなどの従来よく用いられているアルゴリズムの収束性・適用条件が明らかになっているのに対し,提案手法の収束性・適用条件は未知であった.本年度は,いくつかの仮定のもとで,学習者側の条件と環境側の条件についてそれぞれ導出を行った.

研究成果

(4件)

すべて 2010 2009

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件)

[雑誌論文] 複数の位相変化量を用いる複素 Profit Sharing2009
- 著者名/発表者名
  澁谷長史, 島田慎吾, 濱上知樹
- 雑誌名
  
  計測自動制御学会論文集 vol.45, no.11
  
  ページ: 597-604
- 査読あり
[学会発表] 短期記憶をもつ強化学習エージェントの行動獲得条件について2010
- 著者名/発表者名
  澁谷長史
- 学会等名
  第37回知能システムシンポジウム
- 発表場所
  横浜国立大学
- 年月日
  2010-03-16
[学会発表] 複素強化学習における負の報酬の及ぼす影響について2009
- 著者名/発表者名
  澁谷長史
- 学会等名
  FIT情報科学技術フォーラム2009
- 発表場所
  東北工業大学
- 年月日
  2009-09-03
[学会発表] 確率的に表現型が決まる二倍体遺伝的アルゴリズムの連続的に変化する環境への適用2009
- 著者名/発表者名
  澁谷長史
- 学会等名
  第15回創発システムシンポジウム
- 発表場所
  富山市インテック大山研修センター
- 年月日
  2009-08-08

2009 年度 実績報告書

分散知能実現のための頑健・高速・汎用な強化学習アルゴリズムの研究

研究代表者

澁谷 長史 横浜国立大学, 工学府, 特別研究員(DC1)

研究成果

[雑誌論文] 複数の位相変化量を用いる複素 Profit Sharing2009

著者名/発表者名

雑誌名

[学会発表] 短期記憶をもつ強化学習エージェントの行動獲得条件について2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 複素強化学習における負の報酬の及ぼす影響について2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 確率的に表現型が決まる二倍体遺伝的アルゴリズムの連続的に変化する環境への適用2009

著者名/発表者名

学会等名

発表場所

年月日

2009 年度実績報告書

澁谷長史横浜国立大学, 工学府, 特別研究員(DC1)