Research Abstract |
強化学習を多重タスクに応用する例としてサッカーを対象とし,本年度は,(1)前年度実施した1:1のシュート行動についての,多重行動の統合(切替え)再学習時間の短縮,(2)マルチエージェント環境での行動学習のための他エージェントの行動モデル同定について,各種シミュレーション及び実ロボットによる実験を行った.本年度の研究実績及び評価は以下の通りである. 1.前年度実施した多重行動の統合の学習法では,強化学習による行動切替え再学習が,最もよい成績を修めたが,尚,多大な学習時間を必要とするので,学習時間短縮手法としてモジュラー学習による行動の統合実験を行った. 1)サブサンプションアーキテクチャでは,事前に各行動モジュールの間の抑制条件(一般の行動ネットワークでは切替え条件または,行動遷移条件)は,事前にプログラマが設計する.しかし,多様な状況をすべて特定することはできず,自ずと限界がある.そこで,この切替え条件を強化学習によって求めることが考えられる.このとき,個々の行動に対する状態空間の直積をとれば,状態空間が膨大な大きさになり,非現実的な学習時間を要する. 2)各行動の学習結果得られた行動価値関数を基に,いずれかの行動が支配的で再学習を必要としない状態と,複数の行動が競合し,行動切替えに再学習を必要とする状態の二つのカテゴリに状態空間を分類し,再学習を必要とする領域のみを学習対象とすることで,学習時間の低減を図った. 3)統合によって生じる干渉状態は,学習データを情報量基準を用いて検出し,学習に適した状態空間を構成した. 4)実験結果として,前年度に比べ,学習時間を約1/3に短縮できた. 2.マルチエージェント環境での行動学習では,エージェントのモデル次数が既知でないと適切な学習が行えない.そこで, 1)視覚情報から得られる画像特徴と学習者のモータコマンドとの関係をシステム同定の手法を用いて同定し,各エージェントの次数を同定する. 2)同定された次数を基に状態空間を構成し,強化学習により協調行動を獲得した. 3)実機でパスされたボールをシュートする行動を獲得できた.
|