研究概要 |
強化学習を多重タスクに応用する例としてサッカーを対象とし,本年は1:1のシュート行動について,各種シミュレーション及び実ロボットによる実験を行った.本年度の研究実績及び評価は以下の通りである. 1.強化学習の一つであるQ学習を用いて,個々のサブタスクに対応する行動を獲得した.すなわち,シューティング行動と,ゴールキーパ-回避行動である.これらの手法に関しては既に学習法が確立しており,何の問題もなかった. 2.獲得された行動を組み合わせて協調行動を獲得するシミュレーションを実施した.統合方法として,二つの行動価値関数の単純和による新たな行動価値関数による協調,ある条件による行動価値関数の切り分け(但し,条件設定は固定),矛盾する状態に対処すらための再学習法を比較検討した.その結果,行動価値関数の総和や単純な条件設定での行動切替えでは,矛盾する状態に対応できず,再学習による手法が,シュート率,シュートに要する平均ステップ数,ゴールキーパ-回避率で共に優れていた.但し,再学習は状態空間のサイズが増大し,多大な学習時間を必要としたので,学習法自体に工夫を施したが,更なる改善が必要と思われる. 3.ゴールキーパ-は,最初,怠惰な行動をとるように設定し,協調行動が収束した時点で,徐々にゴールを阻止する行動をとるようにし,シューティング行動のスキル向上を図った. 4.実ロボットを用いた基礎的な実験を行った.実時間によるカラー画像処理装置を用いて相手やボール,ゴールを検出し,シミュレーションで獲得した行動を実現した.問題点として,照明やノイズ,スリップなどの影響があり,これらにどう対処すべきかの課題が残った.
|