通常の強化学習では一つのエージェントのみを用いて学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、エージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。 本年度は、主として、鳥の群れ行動にヒントを得た最適化手法であるParticle Swarm Optimizationの基本アルゴリズムを改良するとともに、強化学習問題をQ値の最適化問題と捉えてParticle Swarm OptimizationをQ-learningに組み込んだ群強化学習法を提案した。Particle Swarm Optimizationを組み込んだ群強化学習法では、Particle Swarm Optimizationの解候補更新式に基づいて自己最良Q値と全体最良Q値を導入し、これらの最良Q値を利用して各エージェントのQ値を更新するが、その更新手続きには種々の方法が考えられる。そこで、本年度の研究では種々のQ値の更新方法を提案し、計算機を用いた数値実験を通して各更新方法の有効性を検証した。その結果、従来の1エージェントのQ-learningより短時間に良い方策を獲得できる群強化学習法を開発することができた。また、蟻の群れ行動にヒントを得た最適化手法であるアントコロニー最適化法をQ-learningに組み込んだ群強化学習法の基礎的検討を行った。
|