研究概要 |
本研究は,動的,複雑に変化する実世界を対象とした実時間の学習問題を取り扱うための理論および実装手法を明らかにすることを目的としたもので,カオス力学系の理論による世界のモチリングと強化学習の理論による探査問題の融合を提案して研究を進め,学習アルゴリズムを開発し,いくつかのロボット学習問題へ応用し有効性を確認することができた.また発展研究として,マルチエージェントの相互学習のダイナミクスに着目し,開発した手法を適用して集団を動的な収束に導く可能性を実験的に明らかにすることができた.当該期間に得られた成果は以下のようにまとめられる. 1. 学習エージェントの実環境センシングデータを動的な知識として表現する手法として,時系列を力学系として再構築するモデル化に着眼し,時間遅れ座標を用いたアルゴリズムに実装した2. 時間遅れ座標による再構成によりセンサ系列のダイナミクスを高次空間上に再構築する表現から,次の時刻の短期未来状態予測として知識を取り出せることを見出し,これを学習機構に与えることで,強化学習を学習法として利用すれば,方策の表現を次元拡張するのみで,コンテクスト依存性を解消し,かつ学習を正しい経験に基づいて行うような学習理論を得ることを示した コンテクストベクトル表現など固定的な長さの過去の履歴によらずに,過去の履歴の動的特徴を知識として蓄えることができることを明らかにし,また学習は予測に依存することなく実際の経験から正しい方策を得ることができることから,この遅れ座標による知識表現はパラメータ依存性を厳しく要求しないことが明らかになった.これによりカオティックな現象を含めて実世界データをダイナミクスの立場で学習する基礎を得た. 3. 発展研究として,ダイナミクスによる環境同定とその学習を同時に行うシステムが相互に共通環境で作業する場合に,ダイナミクスの形成とそれによる協調行動の自動発生が期待でき,集団での動的環境への適応が起きることを,実験を通じて十分な可能性を確認した.
|