強化学習による移動ロボットのための状態空間の自動構成法に関する研究

研究課題

研究課題/領域番号	08233213
研究種目	重点領域研究
配分区分	補助金
研究機関	大阪大学
研究代表者	浅田稔大阪大学, 工学部, 教授 (60151031)
研究分担者	鈴木昭二大阪大学, 工学部, 助手 (50273587) 細田耕大阪大学, 工学部, 助教授 (10252610)
研究期間 (年度)	1996
研究課題ステータス	完了 (1996年度)
配分額 *注記	1,800千円 (直接経費: 1,800千円) 1996年度: 1,800千円 (直接経費: 1,800千円)
キーワード	状態空間 / 自律的構成 / 強化学習 / 線形モデル / オンライン学習 / シュート行動
研究概要	強化学習を適用するには,状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタスクを例にとり,経験による視覚情報の分節化を実施した.前年度実施したオフラインの学習法から,線形モデルを仮定したオンラインの学習法を提案し,実機で検証した.本年度の研究実績及び評価は以下の通りである. ・状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては,統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認した. ・移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの行動がとれる行動空間を想定した. ・状態空間は最初,ゴール状態とそれ以外の2状態からなり,これを経験によって逐次分割及び統合を繰り返す. ・センサ情報から得られる特徴ベクトルの行動に対する変化を線形モデルで近似し,モデル化できない経験が得られた時点で,モデル化可能な範囲を分割し状態と定義することで,状態分割を進める. ・オンライン学習なので環境の動的変化に対応可能で,その例としてボールの大きさを突然2倍の大きさにした場合,直後は成功率が下がるが,数回の試行で成功率が基の状態に戻ることを確認した. ・実機を用いた実験では,約一時間半で,ほぼ学習を終え,手法の有効性を検証した.