1996 Fiscal Year Annual Research Report

視覚に基づく強化学習による競技ロボットの多重タスク遂行のための協調

Research Project

Project/Area Number	07455112
Research Institution	Osaka University
Principal Investigator	浅田稔大阪大学, 工学部, 教授 (60151031)
Co-Investigator(Kenkyū-buntansha)	鈴木昭二大阪大学, 工学部, 助手 (50273587) 細田耕大阪大学, 工学部, 助教授 (10252610)
Keywords	強化学習 / マルチロボット / 状態空間構成 / システム同定 / 赤池情報量基準 / 視覚移動ロボット
Research Abstract	強化学習を多重タスクに応用する例としてサッカーを対象とし,本年度は,(1)前年度実施した1:1のシュート行動についての,多重行動の統合(切替え)再学習時間の短縮,(2)マルチエージェント環境での行動学習のための他エージェントの行動モデル同定について,各種シミュレーション及び実ロボットによる実験を行った.本年度の研究実績及び評価は以下の通りである. 1.前年度実施した多重行動の統合の学習法では,強化学習による行動切替え再学習が,最もよい成績を修めたが,尚,多大な学習時間を必要とするので,学習時間短縮手法としてモジュラー学習による行動の統合実験を行った. 1)サブサンプションアーキテクチャでは,事前に各行動モジュールの間の抑制条件(一般の行動ネットワークでは切替え条件または,行動遷移条件)は,事前にプログラマが設計する.しかし,多様な状況をすべて特定することはできず,自ずと限界がある.そこで,この切替え条件を強化学習によって求めることが考えられる.このとき,個々の行動に対する状態空間の直積をとれば,状態空間が膨大な大きさになり,非現実的な学習時間を要する. 2)各行動の学習結果得られた行動価値関数を基に,いずれかの行動が支配的で再学習を必要としない状態と,複数の行動が競合し,行動切替えに再学習を必要とする状態の二つのカテゴリに状態空間を分類し,再学習を必要とする領域のみを学習対象とすることで,学習時間の低減を図った. 3)統合によって生じる干渉状態は,学習データを情報量基準を用いて検出し,学習に適した状態空間を構成した. 4)実験結果として,前年度に比べ,学習時間を約1/3に短縮できた. 2.マルチエージェント環境での行動学習では,エージェントのモデル次数が既知でないと適切な学習が行えない.そこで, 1)視覚情報から得られる画像特徴と学習者のモータコマンドとの関係をシステム同定の手法を用いて同定し,各エージェントの次数を同定する. 2)同定された次数を基に状態空間を構成し,強化学習により協調行動を獲得した. 3)実機でパスされたボールをシュートする行動を獲得できた.

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] 内部英治: "競合エージェントの存在する環境での視覚に基づく強化学習によるロボットの行動獲得" 第8回自律分散システム・シンポジウム資料. 371-374 (1996)
[Publications] 内部英治: "サッカーロボットの技能学習" つくばソフトウェアシンポジウム予稿集. 43-46 (1996)
[Publications] Eiji Uchibe: "Behavior coordination for a mobile robot using modular reinforcement learning" Proc.of IEEE/RSJ International Conference on Intelligent Robots and Systems 1996 (IROS'96). 1329-1336 (1996)
[Publications] Eiji Uchibe: "Vision-based reinforcement learning for robocup : Towards real robot competition" Proceeding of IROS-96 Workshop on RoboCup. 1329-1336 (1996)

1996 Fiscal Year Annual Research Report

視覚に基づく強化学習による競技ロボットの多重タスク遂行のための協調

Principal Investigator

浅田 稔 大阪大学, 工学部, 教授 (60151031)

Research Products

[Publications] 内部 英治: "競合エージェントの存在する環境での視覚に基づく強化学習によるロボットの行動獲得" 第8回自律分散システム・シンポジウム資料. 371-374 (1996)

[Publications] 内部 英治: "サッカーロボットの技能学習" つくばソフトウェアシンポジウム予稿集. 43-46 (1996)

[Publications] Eiji Uchibe: "Behavior coordination for a mobile robot using modular reinforcement learning" Proc.of IEEE/RSJ International Conference on Intelligent Robots and Systems 1996 (IROS'96). 1329-1336 (1996)

[Publications] Eiji Uchibe: "Vision-based reinforcement learning for robocup : Towards real robot competition" Proceeding of IROS-96 Workshop on RoboCup. 1329-1336 (1996)

浅田稔大阪大学, 工学部, 教授 (60151031)

[Publications] 内部英治: "競合エージェントの存在する環境での視覚に基づく強化学習によるロボットの行動獲得" 第8回自律分散システム・シンポジウム資料. 371-374 (1996)

[Publications] 内部英治: "サッカーロボットの技能学習" つくばソフトウェアシンポジウム予稿集. 43-46 (1996)