研究課題
通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、Particle Swarm Optimization (PSO)の解候補更新手続きに基づいたエージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。本年度は、主として、PSOの基本性能の確認や群強化学習法の情報交換法の検討を行うとともに、観測ノイズが含まれるような問題に対する群強化学習法および連続状態行動空間の複雑な問題に対する群強化学習法を提案した。PSOに基づく群強化学習法では過去に発見した最も良い方策を用いて情報交換を行うが、観測ノイズが含まれると本来は悪い方策が誤って良いと判定される可能性があり、そのような本来は悪い方策を用いて情報を交換することが群強化学習法の性能を低下させてしまう。そこで、最良方策に年齢と寿命の概念を導入し、最良方策を情報交換に用いる度に年齢を1増加させ、年齢が寿命に達したときに最良方策を捨てて、過去のある一定期間で発見した良い方策を最良方策とする方法を提案した。また、連続状態行動空間の複雑な問題を解くために、連続状態行動空間を扱うことができるActor-Critic法を用い、その学習パラメータの値をPSOの更新式で更新する方法を提案し、数値実験を通して提案法が短時間で最適方策を獲得できることを確認した。
すべて 2011 2010
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (3件)
計測自動制御学会論文集
巻: 46 ページ: 685-691
Proceedings of IEEE International Conference on Systems, Man and Cybernetics
巻: 1 ページ: 1726-1733
Proceedings of Eighth International Conference on Simulated Evolution and Learning
巻: 1