研究概要 |
強化学習を適用するには、状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタンクを例にとり,経験による視覚情報の文節化を実施した.本年度の研究実績及び評価は以下の通りである. 視覚情報から得られる情報として,ロボットに塔載されたTVカメラから得られるボール及びゴールの画像が得られ,二つの独立なモーターで起動される移動車を想定した. 1.状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては、統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認している. 移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの移動がとれる行動空間を想定した.ボールをゴールにシュートできる行動と状態のペアを経験から求め,状態空間のサンプリング点として記録し,統計的手法を用いて,成功を多く含み失敗をなるべくふくまない凸の状態集合を求め,一つの状態として記録した. 上で獲得された状態をゴール状態として,同様の操作を繰り返し、経験に基づく状態空間のクラスタリングを実現した. クラスタリングされた状態空間を用いて強化学習を実施し,状態数の軽減,それゆえ学習時間が激減できることをシミュレーションで示した. 実機でデータをサンプルし学習を実施した結果,シュート行動が実現され,手法の有効性が確認できた.但し,データサンプルに偏りがあると,失敗することもあり,いかに良好なデータを与えるかが,今後の課題となった.
|