研究課題/領域番号 |
22500131
|
研究機関 | 京都工芸繊維大学 |
研究代表者 |
飯間 等 京都工芸繊維大学, 工芸科学研究科, 准教授 (70273547)
|
研究分担者 |
黒江 康明 京都工芸繊維大学, 工芸科学研究科, 教授 (10153397)
|
キーワード | 強化学習 / Particile Swarm Optimization / 群知能 |
研究概要 |
通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、複雑な問題として観測ノイズが含まれる問題、連続状態行動空間を有する問題および多目的問題を取り上げ、これらの問題に対して短時間で学習を行うために複数のエージェントを用意し、各エージェントが通常の強化学習法で学習を行うとともに、Particle Swarm Optimization (PSO)の解候補更新手続きに基づいたエージェント間の情報交換により学習を行う群強化学習法を提案した。 本年度は、まず観測ノイズが含まれる問題に対するPSOおよび群強化学習法の検討を行った。PSOは観測ノイズの影響により、本来は悪い解候補を自己最良解および全体最良解としてしまい、それがPSOの性能を悪化させてしまう。この問題点を解決するために、年齢と寿命の概念を導入したPSOを提案した。次に、連続状態行動空間のロボット制御問題に対する群強化学習法を開発した。この方法では基底関数に基づく関数近似法を用いて学習を行うが、基底関数を用いると以前に提案した情報交換法を適用できない問題が発生した。そこで、基底関数を用いた群強化学習における情報交換法を新たに提案した。また、ロボット制御問題では複数の行動を決定する場合があるので、このような問題に対してマルチエージェント強化学習の考え方を取り入れて学習を行う方法を検討した。最後に、多目的問題に対して、多数のパレート最適方策を発見する強化学習法を提案するとともに、この学習法で最適方策を得られることを理論的に示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画は、観測ノイズが含まれる問題、連続状態行動空間を有する問題、多目的問題に対して、PSOに基づく群強化学習法を開発することであり、これらは「研究実績の概要」に示したように順調に進展している。ただし、多目的問題に対するPSOの検討がやや遅れているので、(2)と評価した。
|
今後の研究の推進方策 |
今年度に引き続き、複雑な強化学習問題として観測ノイズが含まれる問題、連続状態行動空間を有する問題、多目的問題を扱い、これらの問題に対してPSOに基づく群強化学習法を提案する。多目的強化学習問題に対しては、まず強化学習にも適用可能な多目的最適化PSOを提案し、つぎに提案する多目的最適化PSOと本年度に提案した多目的強化学習法を組み合わせた群強化学習法を提案する。提案した方法の性能を、計算機実験および実機実験を通して検証する。
|