2003 Fiscal Year Annual Research Report
強化学習エージェントのための生態学的ニッチ固有の制約構造を活用した状態分割法
Project/Area Number |
15700159
|
Research Institution | Okayama University |
Principal Investigator |
半田 久志 岡山大学, 工学部, 助手 (60304333)
|
Keywords | Reinforcement Learning / Anticipatory Behavior / Autonomous Robots / State Space Construction / Growing Neural Gas Neural Networks |
Research Abstract |
本年度では、これまでに提案してきた状態遷移テーブルとの整合性に着目した状態分割法を発展させ、エージェントの知覚変化予測に基づいた状態分割法について検討を行った。そこでは、ある知覚入力のもとである行動を行った際に起こる、次時刻の知覚入力の変化を予測ベクトルとて格納する。そして、実際の知覚入力変化との誤差を累積していき、誤差の大小、すなわち、予測の精度に基づいて状態分割を行う。このような状態分割法を実現するために、提案手法ではFritzkeのGrowing Neural Gas Algorithmを用いて知覚入力情報を縮約しつつ入力空間の位相を学習させる。さらに、提案手法では、クラス管理機構を導入し、GNGに内在するそれぞれのユニットに関連付けられた予測ベクトルとその予測誤差情報からユニットを状態へと分割させるアプローチをとった。提案手法の特徴は強化学習エージェントが状態・行動価値を学習するのと同時に、すなわち、オンラインで、状態分割を構成できる点にある.本提案手法の有効性を検証するために、標準的なベンチマーク問題である車の山登り問題に適用した。本年度の研究成果は、ニューラルネットワークの分野でもっとも大きい国際会議の一つである、The 2004 International Joint Conference on Neural Networksに投稿し、採択されたので、2004年7月に発表予定である。
|