Research Abstract |
強化学習を適用するには,状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタスクを例にとり,経験による視覚情報の分節化を実施した.前年度実施したオフラインの学習法から,線形モデルを仮定したオンラインの学習法を提案し,実機で検証した.本年度の研究実績及び評価は以下の通りである. ・状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては,統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認した. ・移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの行動がとれる行動空間を想定した. ・状態空間は最初,ゴール状態とそれ以外の2状態からなり,これを経験によって逐次分割及び統合を繰り返す. ・センサ情報から得られる特徴ベクトルの行動に対する変化を線形モデルで近似し,モデル化できない経験が得られた時点で,モデル化可能な範囲を分割し状態と定義することで,状態分割を進める. ・オンライン学習なので環境の動的変化に対応可能で,その例としてボールの大きさを突然2倍の大きさにした場合,直後は成功率が下がるが,数回の試行で成功率が基の状態に戻ることを確認した. ・実機を用いた実験では,約一時間半で,ほぼ学習を終え,手法の有効性を検証した.
|