研究課題/領域番号 |
07680376
|
研究機関 | 北海道大学 |
研究代表者 |
三上 貞芳 北海道大学, 工学部, 助教授 (50229655)
|
研究分担者 |
鈴木 恵二 北海道大学, 工学部, 助教授 (10250482)
嘉数 侑昇 北海道大学, 工学部, 教授 (60042090)
|
キーワード | 強化学習 / マルチエージェント / 協調動作 / 競合・協調 |
研究概要 |
本研究は、複数の未知要因が相互に影響を与え合う環境に対するプランニング手法を提案することを目的として、マルチエージェントシステムが試行錯誤的学習を通じて機能分化を行い、独立した戦略を相補的に獲得しながら協調する問題解決手法による、複数戦略型アプローチを提案し、その学習機構の実現をめざしたものであり、当該期間に得られた成果は以下のようにまとめられる。 1.単一の学習エージェントの内部に複数戦略を導入する方法と、自律した複数エージェントによる群問題解決の2つの方向性を検討した。まず単一学習エージェントに対しては、状態入力と評価関数を独立させた学習サブエージェントを内包させること、個々のサブエージェントの成功頻度と状態観測の関数からなる利用度関数を新たに定義すること、この利用度関数とエージェント利用の短期遍歴、行動の選択を報酬、状態、行動として学習するような内部調停エージェントを持たせること、の3つの要素により通常の強化学習の枠組みを、複数戦略獲得問題へ適応させることが可能なことを明らかにした。これをアルゴリズムとしてまとめ、多体バランシング問題へ適用して有効性を確かめた。 2.群問題解決によるアプローチに対しては、まず自律学習エージェントそれぞれに知識の機能分化を生じさせる圧力として、強化学習の参照情報の最小の形である報酬値に操作量を加える方法が妥当であることを明らかにした。操作量の生成手法として局所報酬信号の時空間方向の混合関数という量を開発して導入した。環境に対する達成目標の種類が強調型、競争型の2種類に大別されることに対応して、時空間混合関数を平滑型、協調型に設定することにより、学習が干渉することなく、機能分化が進み全体目標の達成が可能になることを明らかにした。これをアルゴリズムとしてまとめ、多体衝突回避ルール生成問題へ適用して有効性を確認した。
|