1996 Fiscal Year Annual Research Report

強化学習による移動ロボットのための状態空間の自動構成法に関する研究

Research Project

Project/Area Number	08233213
Research Institution	Osaka University
Principal Investigator	浅田稔大阪大学, 工学部, 教授 (60151031)
Co-Investigator(Kenkyū-buntansha)	鈴木昭二大阪大学, 工学部, 助手 (50273587) 細田耕大阪大学, 工学部, 助教授 (10252610)
Keywords	状態空間 / 自律的構成 / 強化学習 / 線形モデル / オンライン学習 / シュート行動
Research Abstract	強化学習を適用するには,状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタスクを例にとり,経験による視覚情報の分節化を実施した.前年度実施したオフラインの学習法から,線形モデルを仮定したオンラインの学習法を提案し,実機で検証した.本年度の研究実績及び評価は以下の通りである. ・状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては,統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認した. ・移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの行動がとれる行動空間を想定した. ・状態空間は最初,ゴール状態とそれ以外の2状態からなり,これを経験によって逐次分割及び統合を繰り返す. ・センサ情報から得られる特徴ベクトルの行動に対する変化を線形モデルで近似し,モデル化できない経験が得られた時点で,モデル化可能な範囲を分割し状態と定義することで,状態分割を進める. ・オンライン学習なので環境の動的変化に対応可能で,その例としてボールの大きさを突然2倍の大きさにした場合,直後は成功率が下がるが,数回の試行で成功率が基の状態に戻ることを確認した. ・実機を用いた実験では,約一時間半で,ほぼ学習を終え,手法の有効性を検証した.

Research Products

(4 results)

All Publications (4 results)

[Publications] 浅田稔: "視覚と行動の密な統合を目指すロボットビジョン" 光学. 25・5. 252-257 (1996)
[Publications] 浅田稔: "特集ロボカップ,3.ロボットプレーヤの感覚と学習" bit. 28・5. 37-43 (1996)
[Publications] M.Asada: "Behavior acquisition via vision-based robot learning" Robotics Research,The Seventh International Symosium. 279-286 (1996)
[Publications] 浅田稔: "新しいai研究目指して" 人工知能学会誌. 11・5. 721-723 (1996)