2002 Fiscal Year Annual Research Report
共進化的環境創造による自律移動ロボットのメタレベル行動学習
Project/Area Number |
14750362
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
近藤 敏之 東京工業大学, 大学院・総合理工学研究科, 助手 (60323820)
|
Keywords | 強化学習 / 進化的計算 / 正規化ガウシアンネットワーク / 動的関数近似 / 自律移動ロボット / オンライン学習 |
Research Abstract |
本研究では,高次元・連続な状態入出力を有する制御対象として自律移動ロボットをとりあげ,その感覚・行動間写像の同定に強化学習法を適用する際に問題となる,計算資源の割当て問題を解決するための一手法として,NGnetで実装したActor-Critic強化学習に学習器の構造パラメータを同時に探索する進化的recruitment戦略を導入する手法を提案した. 本年度は,1.提案する進化的recruitment戦略のアルゴリズムを計算機上に実装し,一定時間ごとに関数形状が動的に変化する目的関数のオンライン関数近似課題に適用し,提案手法の有効性を確認した. 2.提案手法を移動ロボットの行動学習問題に適用した.計算機シミュレータ上に,ロボットと円柱状の搬送物体(以降Pegと呼ぶ)のモデルを実装し,さまざまな初期姿勢から押し動作学習を行わせた.ロボットの感覚・行動間写像は先のNGnetで実装され,その構造パラメータは提案手法でオンライン調節された.Peg押しロボットのシミュレーション結果から,提案手法は学習の伸展とともに学習器を構成する基底関数の属性パラメータが漸進的にチューニングされるため,追加する基底関数の大きさをあらかじめ設計者が決めなければならない手法と比べ,より少ない基底数で制御器を構成できることが確認された. 3.上記のPeg押し課題について,実ロボットによる検証実験を行い,一時間弱の試行の後にロボットが所望のタスクを学習できることを確認した. 一般に,強化学習のように初期の行動政策があてにならない状態からオンライン学習を始める場合,学習初期の状態分割はやはりあてにならない偏った観測データに基づいて形成されたものであり,状態分割は学習の伸展とともに修正される必要がある.提案手法では,初期段階に形成されたあてにならない状態分割を局所的な競合によって段階的に解消することができるため,従来のリソース割当てアルゴリズムと比べ,環境変化に対して頑健な手法である可能性が高いと考えられる. 上記について2002年10月にスイス連邦工科大学ローザンヌ校で開催されたIROS2002において研究成果を発表した.また,現在論文2件を投稿中である. 今後は,1.視覚情報から行動へのマッピングの獲得 2.搬送物体の形状,物理パラメータ変化に対する適応性の検証,ならびに提案手法アルゴリズムの見直し.について研究を進める予定である.
|
Research Products
(4 results)
-
[Publications] Toshiyuki Kondo, Koji Ito: "A Reinforcement Learning with Adaptive State Space Recruitment Strategy for Real Autonomous Mobile Robots"Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS'02). (CD-ROM). ID:393 (2002)
-
[Publications] 近藤敏之, 伊藤宏司: "環境共創による適応的行動学習 -実移動ロボットによる押し動作獲得"計測自動制御学会システム・情報部門学術講演会2002講演論文集(優秀論文賞受賞). 423-428 (2002)
-
[Publications] 近藤敏之, 伊藤宏司: "共進化環境創造による実移動ロボットのPeg押し動作学習"日本ロボット学会創立20周年記念学術講演会. (CD-ROM). 3H32 (2002)
-
[Publications] Toshiyuki Kondo, Koji Ito: "A Reinforcement Learning using Adaptive State Space Construction Strategy for Real Autonomous Mobile Robots"Proceedings of SICE Annual Conference 2002. (CD-ROM). WM13-2 (2002)