研究課題
通常の強化学習では一つのエージェントのみが試行錯誤を通して学習を行うので複雑な問題では学習に時間がかかりすぎるという欠点がある。したがって、強化学習の実用化に向けて学習を高速に行う新しい方法を開発することが必要である。本研究では、複雑な問題として連続状態行動空間を有する制御系設計問題および多目的強化学習問題を取り上げ、これらの問題に対して短時間で学習を行うためにエージェントと環境の組を複数用意し、各エージェントが通常の強化学習法で個別に学習を行うとともに、Particle Swarm Optimization(PSO)の解候補更新手続きに基づいた情報交換によっても学習を行う群強化学習法の開発を試みた。本年度は、まず連続状態行動空間を有する問題に対する群強化学習法を提案し、二足歩行ロボット制御問題に提案方法を適用した。この方法では基底関数に基づく関数近似法を用いて学習を行うが、基底関数を用いると以前に提案した情報交換法を適用できない問題が発生した。そこで、基底関数を用いた群強化学習における情報交換法を新たに提案した。また、ロボット制御問題では複数の行動を決定する場合があり、このような場合にマルチエージェント強化学習の考え方を取り入れることが可能である。そこで、マルチエージェント強化学習の代表的な問題であるジレンマ問題およびフォーメーション形成問題に対する群強化学習法を提案した。最後に、多目的強化学習問題に対する群強化学習法を開発するために、群強化学習法の個別学習で利用できる強化学習法を提案した。提案した方法で得られる方策はパレート最適方策であることを理論的に示すとともに、提案方法によって複数存在する全てのパレート最適方策を発見できることを数値実験により示した。
24年度が最終年度であるため、記入しない。
すべて 2013 2012
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (5件)
計測自動制御学会論文集
巻: 49 ページ: 370-377
10.9746/sicetr.49.370
巻: 48巻 ページ: 790-798
DOI:10.9746/sicetr.48.790
Proceedings of 2012 IEEE International Conference on Systems, Man and Cybernetics
巻: 1 ページ: 1917-1923