1995 Fiscal Year Annual Research Report
強化学習による移動ロボットのための状態空間の自動構成法に関する研究
Project/Area Number |
07243214
|
Research Institution | Osaka University |
Principal Investigator |
浅田 稔 大阪大学, 工学部, 教授 (60151031)
|
Co-Investigator(Kenkyū-buntansha) |
鈴木 昭二 大阪大学, 工学部, 助手 (50273587)
細田 耕 大阪大学, 工学部, 助手 (10252610)
|
Keywords | 強化学習 / 状態空間 / 自律的分割 / サッカーロボット |
Research Abstract |
強化学習を適用するには、状態空間を適切に選択する必要がある.本研究では,選択されたセンサー情報を自律的に分割する問題を,サッカーロボットがシューティング行動を強化学習するタンクを例にとり,経験による視覚情報の文節化を実施した.本年度の研究実績及び評価は以下の通りである. 視覚情報から得られる情報として,ロボットに塔載されたTVカメラから得られるボール及びゴールの画像が得られ,二つの独立なモーターで起動される移動車を想定した. 1.状態空間を構成する要素として,ボールの位置,大きさ,ゴールの位置,大きさ,向きを選択した.情報選択に関しては、統計的手法を用いて自動化を試みており,対象物体が背景から容易に抽出できる場合は,選択可能性が高いことを確認している. 移動車は,左右独立のモータにそれぞれ,前進,停止,後退の3種の動きが実現でき,合計9つの移動がとれる行動空間を想定した.ボールをゴールにシュートできる行動と状態のペアを経験から求め,状態空間のサンプリング点として記録し,統計的手法を用いて,成功を多く含み失敗をなるべくふくまない凸の状態集合を求め,一つの状態として記録した. 上で獲得された状態をゴール状態として,同様の操作を繰り返し、経験に基づく状態空間のクラスタリングを実現した. クラスタリングされた状態空間を用いて強化学習を実施し,状態数の軽減,それゆえ学習時間が激減できることをシミュレーションで示した. 実機でデータをサンプルし学習を実施した結果,シュート行動が実現され,手法の有効性が確認できた.但し,データサンプルに偏りがあると,失敗することもあり,いかに良好なデータを与えるかが,今後の課題となった.
|
Research Products
(4 results)
-
[Publications] M.Asada: "Vision-based reinforcement Learming for purposive behavior acquisition" Proc.of IEEE Int.Conf.on Robotics and Automation. 146-153 (1995)
-
[Publications] M.Asada: "Non-physical intervention in robot learning based on lfe Programming by Demonstration method" Proc,of Machine Learning Conference Workshop on Learning from Examples vs.25-31 (1995)
-
[Publications] 浅田: "ロボットの行動獲得のための状態空間の自律的構成" 第9回人工知能 学会全国大会論文集. 157-160 (1995)
-
[Publications] 野田: "強化学習によるロボットの行動獲得のための状態空間の自律的構成" 第5回ロボットシンポジウム予稿集. 145-150 (1995)