2010 Fiscal Year Annual Research Report
複雑な学習問題に対するPSOに基づく群強化学習法の適用
Project/Area Number |
22500131
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
飯間 等 京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)
|
Co-Investigator(Kenkyū-buntansha) |
黒江 康明 京都工芸繊維大学, 工芸科学研究科, 教授 (10153397)
|
Keywords | 強化学習 / Particle Swarm Optimization / 群知能 |
Research Abstract |
通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、Particle Swarm Optimization (PSO)の解候補更新手続きに基づいたエージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。 本年度は、主として、PSOの基本性能の確認や群強化学習法の情報交換法の検討を行うとともに、観測ノイズが含まれるような問題に対する群強化学習法および連続状態行動空間の複雑な問題に対する群強化学習法を提案した。PSOに基づく群強化学習法では過去に発見した最も良い方策を用いて情報交換を行うが、観測ノイズが含まれると本来は悪い方策が誤って良いと判定される可能性があり、そのような本来は悪い方策を用いて情報を交換することが群強化学習法の性能を低下させてしまう。そこで、最良方策に年齢と寿命の概念を導入し、最良方策を情報交換に用いる度に年齢を1増加させ、年齢が寿命に達したときに最良方策を捨てて、過去のある一定期間で発見した良い方策を最良方策とする方法を提案した。また、連続状態行動空間の複雑な問題を解くために、連続状態行動空間を扱うことができるActor-Critic法を用い、その学習パラメータの値をPSOの更新式で更新する方法を提案し、数値実験を通して提案法が短時間で最適方策を獲得できることを確認した。
|
Research Products
(6 results)