強化学習エージェントのための生態学的ニッチ固有の制約構造を活用した状態分割法

Research Project

Project/Area Number	15700159
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Perception information processing/Intelligent robotics
Research Institution	Okayama University
Principal Investigator	半田久志岡山大学, 工学部, 助手 (60304333)
Project Period (FY)	2003 – 2004
Project Status	Completed (Fiscal Year 2004)
Budget Amount *help	¥2,500,000 (Direct Cost: ¥2,500,000) Fiscal Year 2004: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2003: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywords	強化学習 / 状態分割法 / Reinforcement Learning / Anticipatory Behavior / Autonomous Robots / State Space Construction / Growing Neural Gas Neural Networks
Research Abstract	近年,ニューラルネットや強化学習,進化計算のような学習機構を取り入れた自律移動ロボットに関する研究が盛んである.しかしながら,現状では,たとえ高性能な学習機構を取り入れていても,地面のすべりや背景といった環境特有の情報,エージェントのアクチュエータやセンサの特性といった生態学的ニッチ固有の制約構造を巧く活用しないとロボットは全く機能しない.本研究では,自律的に知覚・行動を行う強化学習エージェントに対して与えられた生態学的ニッチ固有の制約構造を活用するための状態分割法を提案しその有用性を示した.提案手法では,知覚-行動-知覚という系列について,状態分割の整合性を検査し,矛盾が検出されるたびにさらなる分割を生じることによりその矛盾解消を試みる.すなわち,ある時刻における知覚入力に対して状態を割り当てるような状態分割器を考える.そして,行動を行った結果として生じる知覚入力を状態分割器に与え,状態を得る.系列をエージェントが行動するたびに蓄えていき,矛盾検出とその解消を行う.提案手法では、階層的な情報処理による状態分割を行うメカニズムを有し、階層は情報の縮約を、上位層は階層で縮約を行ったニューロンが発火した際に、次時刻ではどのような知覚変化を引き起こすかを予測している。この予測の精度にもとづいて状態分割を構成している。本年度は、この研究課題で新たに提案を行った上記の状態分割法について、車の山登り問題へ適用した研究について2004年7月にブダペストで行われたIJCNN04にて成果発表を行った。また状態だけではなく行動の分節化を行うようなアルゴリズムの拡張について検討した。