研究概要 |
本研究は,複数の未知要因が相互に動的に影響を与えているような実世界における制御問題を対象とした柔軟な学習機構を構築することを目的として,独立した問題解決を試みるエージェント群を競合・協調させることで,試行錯誤的でありながらも,全体として選りすぐれた解決戦略を自律的に発見していくような,複数の戦略を統合した学習機構の実現を目指すものであり,当該期間内に得られた成果は以下のようにまとめられる. 1.複数要因を有する動的実環境に対する柔軟な学習機構として,異種の戦略を持ち,互いの戦略獲得機構に関する知識を持たないエージェントが動的に結合し同期的行動を生成するようなマルチエージェント系により構成されるシステムを考慮すべきことがわかり,これが局所非同期通信に基づく全体の同期行動の学習による生成問題に帰着されることが明らかになった. 2.同期行動獲得手段として,具体的に次の2種類のアプローチを提案した (1)期待報酬信号を非同期に交換し,これと局所報酬信号に時間・空間的な競合または平均化フィルタを適用することで近似的に系全体の目標関数を改善するようなフィルタ型強化学習手法を提案した. (2)適当な頻度で平均報酬を交換することが可能な中規模エージェント群に対する手法として,各強化学習機構の学習パラメータをインターリーブ的に遺伝アルゴリズムを介して大域最適化するハイブリッド手法を提案した. 3.以上の検証として,AGV干渉回避問題,交通信号機大域制御問題を例として計算機実験を試み,局所通信が全体目標を改善することを確認したが,一方で性能に関して強いパラメータ依存性が見られる点,また極度に競合するような問題設定においてはほとんど改善の効果が見られなかった点などに関して,今後解析すべき課題が残された.
|