研究概要 |
単純な決定規則で行動するエージェントを複数用意し,その間に蜜なインタラクションを持つような系を走らせ,全体の挙動が創発されるのを実験的に調べる研究が,物理,数学のみならず,人工知能,人工生命の研究において最近非常に活発に行われつつある.しかし,これまで扱われてきたエージェントは,非常に単純なものであり,その行動決定規則自身も静的で,設計者がある程度全体の挙動を予測可能であり,創発性という意味では,不十分な面がある.また,もう一つの重要な問題として,エージェントが同じ行動決定アルゴリズムをもつという意味で,均質であることがあげられる.以上の背景から,我々は,動的に自分自身の行動決定規則を変化させる学習機能をエージェントに持たせ,さらにその学習アルゴリズムが不均質であるようなマルチエージェント系を,様々な視点から構成し,個々のエージェントのパラメータの変化により,全体の挙動がいかに創発されるかを調べ,個が全体に及ぼす影響を実験的に探ることを目指した. 初年度は,異なった強化学習アルゴリズムによる異種マルチエージェント系における種々の実験をおこなった.ここで,異なった強化学習アルゴリズムとは,Q学習において学習率と行動選択を変えたものを意味する.このパラメータの違うの学習アルゴリズムに注目し,それぞれのパラメータをもつエージェントを用意し、同じ環境で行動学習を行わせて学習マルチエージェント系を構成する.まずは,それぞれの学習アルゴリズムをもつ2つのエージェントから始めた. 実際に実験に用いたエージェント間のハンタラクションは,以下のものである. 経験の共有:各エージェントが実際に行動することにより経験した,状態-行動-報酬の3つ組を共有する.これは,各エージェントで同じ表現を用いて比較的素直に共有できる. 実験の結果,特に局所最適解をもつ報酬において,2つの異種のエージェント間において相補性が見られた。
|