研究概要 |
強化学習を多重タスクに応用する例としてサッカーを対象とし,初年度は,1 : 1のシュート行動について,次年度は,(1)初年度実施した多重行動の統合(切替え)再学習時間の短縮,(2)マルチエージェント環境での行動学習のための他エージェントの行動モデル同定について,各種シミュレーション及び実ロボットによる実験を行った.研究実績及び評価は以下の通りである. 1.初年度: (1)強化学習の一つであるQ学習を用いて,個々のサブタスクに対応する行動を獲得した. (2)獲得された行動を組み合わせて協調行動を獲得するシミュレーションを実施した.統合方法として,種々の手法を試みたが,再学習による手法が,シュート率,シュートに要する平均ステップ数,ゴールキーパ-回避率で共に優れていた. (3)実ロボットを用いた基礎的な実験を行った.実時間によるカラー画像処理装置を用いて相手やボール,ゴールを検出し,シミュレーションで獲得した行動を実現した. 2.次年度 (1)各行動の学習結果得られた行動価値関数を基に,いずれかの行動が支配的で再学習を必要としない状態と,複数の行動が競合し,行動切替えに再学習を必要とする状態の二つのカテゴリに状態空間を分類し,再学習を必要とする領域のみを学習対象とすることで,学習時間の低減を図った. (2)統合によって生じる干渉状態は,学習データを情報量基準を用いて検出し,学習に適した状態空間を構成した.その結果として,前年度に比べ,学習時間を約1/3に短縮できた. (3)マルチエージェント環境での行動学習では,エージェントのモデル次数が既知でないと適切な学習が行えない.そこで,視覚情報から得られる画像特徴と学習者のモータコマンドとの関係をシステム同定の手法を用いて,各エージェントの次数を同定し,それらを基に状態空間を構成し,強化学習により協調行動を獲得した. (4)実機でパスされたボールをシュートする行動を獲得できた.
|