強化学習による移動ロボットのための状態空間の自動構成法に関する研究

Research Project

Project/Area Number	07243214
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	Osaka University
Principal Investigator	浅田稔大阪大学, 工学部, 教授 (60151031)
Co-Investigator(Kenkyū-buntansha)	鈴木昭二大阪大学, 工学部, 助手 (50273587) 細田耕大阪大学, 工学部, 助手 (10252610)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥2,200,000 (Direct Cost: ¥2,200,000) Fiscal Year 1995: ¥2,200,000 (Direct Cost: ¥2,200,000)
Keywords	強化学習 / 状態空間 / 自律的分割 / サッカーロボット
Research Abstract	強化学習を適用するには、状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタンクを例にとり,経験による視覚情報の文節化を実施した.本年度の研究実績及び評価は以下の通りである. 視覚情報から得られる情報として,ロボットに塔載されたTVカメラから得られるボール及びゴールの画像が得られ,二つの独立なモーターで起動される移動車を想定した. 1.状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては、統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認している. 移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの移動がとれる行動空間を想定した.ボールをゴールにシュートできる行動と状態のペアを経験から求め,状態空間のサンプリング点として記録し,統計的手法を用いて,成功を多く含み失敗をなるべくふくまない凸の状態集合を求め,一つの状態として記録した. 上で獲得された状態をゴール状態として,同様の操作を繰り返し、経験に基づく状態空間のクラスタリングを実現した. クラスタリングされた状態空間を用いて強化学習を実施し,状態数の軽減,それゆえ学習時間が激減できることをシミュレーションで示した. 実機でデータをサンプルし学習を実施した結果,シュート行動が実現され,手法の有効性が確認できた.但し,データサンプルに偏りがあると,失敗することもあり,いかに良好なデータを与えるかが,今後の課題となった.