2008 年度実績報告書

分散知能実現のための頑健・高速・汎用な強化学習アルゴリズムの研究

研究課題

研究課題/領域番号	07J07695
研究機関	横浜国立大学
研究代表者	澁谷長史国立大学法人横浜国立大学, 大学院・工学府, 特別研究員(DC1)
キーワード	強化学習 / 不完全知覚問題
研究概要	平成20年度は,平成19度に引き続いて,不完全知覚問題を含む環境における強化学習アルゴリズムについての研究を行った。不完全知覚問題は,ノイズやセンサ精度などの制約によって,学習の主体であるエージェントが実際には異なる状態を同じ状態とみなしてしまう問題である。不完全知覚問題が発生した場合,エージェントは適切な動作の獲得が困難になる。まず,平成19年度検討を行った行動価値の多重化手法を,これまで検討を行ってきた強化学習アルゴリズムとは異なる強化学習アルゴリズムに適用し,評価を行った。行動価値は,ある行動を選択する際の指標である。行動価値の多重化とは,ひとつの行動に複数の行動価値を割り当てる方式である。多重化を行うと,異なる内部参照値に対しても同じ行動を選択できると期待される。実験の結果,不完全知覚問題を含む環境において効率的に多様な行動文脈を学習することが可能であると確認された。さらに,平成20年度は,不完全知覚問題を含む環境において獲得される行動価値の収束値を計算する方法について基礎的な検討を行った。本手法は,行動の選択肢が1つしかないような環境において,簡便な手法によって行動価値の収束値を計算することができる。行動価値を並べたベクトルに対する線形変換として価値の更新を定義し,その固有値から収束値を計算する。この手法が確立されれば,同様の手法によって,複素強化学習における価値である複素行動価値への拡張が期待され,複素強化学習で学習可能な環境のクラスの特定に有用であると期待される。

研究成果

(7件)

すべて 2009 2008

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (5件)

[雑誌論文] 複素数で表現された行動価値を用いる Q-learning (掲載)2008
- 著者名/発表者名
  澁谷長史
- 雑誌名
  
  電子情報通信学会論文誌D Vol.91-D No.5
  
  ページ: 1286-1295
- 査読あり
[雑誌論文] A method of generalization of state space construction for multi robots with different sensor configurations (掲載)2008
- 著者名/発表者名
  Takeshi SHIBUYA
- 雑誌名
  
  IEEJ Transactions of Electrical & Electronic Engineering 7
  
  ページ: 418-424
- 査読あり
[学会発表] Multiplied Action Values for Complex-valued Reinforcement Learning2009
- 著者名/発表者名
  Takeshi Shibuya
- 学会等名
  ICEE
- 発表場所
  China
- 年月日
  2009-07-06
[学会発表] 確率的に表現型が決まる二倍体遺伝的アルゴリズムの多様性維持に関する一検討2009
- 著者名/発表者名
  澁谷長史
- 学会等名
  電子情報通信学会総合大会
- 発表場所
  愛媛県松山市
- 年月日
  2009-03-20
[学会発表] 多様な文脈行動の学習をめざした複素 Profit Sharing2008
- 著者名/発表者名
  澁谷長史
- 学会等名
  計測自動制御学会システム・情報部門学術講演会
- 発表場所
  兵庫県姫路市
- 年月日
  2008-11-28
[学会発表] 不完全知覚を含む環境における Q-learning の学習係数に関する一考察2008
- 著者名/発表者名
  澁谷長史
- 学会等名
  情報科学技術フォーラム
- 発表場所
  神奈川県藤沢市
- 年月日
  2008-09-02
[学会発表] POMDPs環境における強化学習のための行動価値の複素数表現2008
- 著者名/発表者名
  澁谷長史
- 学会等名
  第14回創発システム・シンポジウム「創発夏の学校2008」
- 発表場所
  富山県富山市
- 年月日
  2008-08-17

2008 年度 実績報告書

分散知能実現のための頑健・高速・汎用な強化学習アルゴリズムの研究

研究代表者

澁谷 長史 国立大学法人横浜国立大学, 大学院・工学府, 特別研究員(DC1)

研究成果

[雑誌論文] 複素数で表現された行動価値を用いる Q-learning (掲載)2008

著者名/発表者名

雑誌名

[雑誌論文] A method of generalization of state space construction for multi robots with different sensor configurations (掲載)2008

著者名/発表者名

雑誌名

[学会発表] Multiplied Action Values for Complex-valued Reinforcement Learning2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 確率的に表現型が決まる二倍体遺伝的アルゴリズムの多様性維持に関する一検討2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 多様な文脈行動の学習をめざした複素 Profit Sharing2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 不完全知覚を含む環境における Q-learning の学習係数に関する一考察2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] POMDPs環境における強化学習のための行動価値の複素数表現2008

著者名/発表者名

学会等名

発表場所

年月日

2008 年度実績報告書

澁谷長史国立大学法人横浜国立大学, 大学院・工学府, 特別研究員(DC1)