Project/Area Number |
19650031
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
飯間 等 Kyoto Institute of Technology, 工芸科学研究科, 准教授 (70273547)
|
Co-Investigator(Kenkyū-buntansha) |
黒江 康明 京都工芸繊維大学, 工芸科学研究科, 教授 (10153397)
|
Project Period (FY) |
2007 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥1,800,000 (Direct Cost: ¥1,800,000)
Fiscal Year 2008: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2007: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 強化学習 / Particle Swarm Optimization / アントコロニー最適化法 / 群知能 |
Research Abstract |
通常の強化学習では一つのエージェントのみを用いて学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要不可欠である。本研究では、短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、エージェント間の情報交換により他のエージェントの学習成果を参照して学習を行う群強化学習法を提案した。 本年度は、鳥の群れ行動にヒントを得た最適化手法であるParticle Swarm Optimizationを用いた群強化学習法におけるエージェント間の情報交換方法を提案した。また、各エージェントが行う個別学習法として、SarsaやActor-Criticを用いた方法を提案した。また、より複雑な問題に対する群強化学習法の有効性を検証するために、倒立振子制御問題、サッカーゲーム問題、マルチエージェント環境の問題に群強化学習法を適用し、これらの問題に対しても短時間に良い方策を獲得できることを確認した。さらに、蟻の群れ行動にヒントを得た最適化手法であるアントコロニー最適化法を用いた群強化学習法を提案した。この群強化学習法では他のエージェントの学習成果を行動選択に利用する新しい枠組みを用いている。以上の成果より、従来の1エージェント強化学習法より短時間に良い方策を獲得できる群強化学習法を開発することができた。
|
Report
(2 results)
Research Products
(14 results)