2003 Fiscal Year Annual Research Report
新たな設計指針に基づく不完全知覚下での強化学習手法の提案と工学的応用に関する研究
Project/Area Number |
15700143
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)
|
Keywords | 強化学習 / 不完全知覚問題 / Profit Sharing / POMDPs |
Research Abstract |
本研究課題を推進するために、本年度は、その最も基本となる部分である、不完全知覚環境(POMDPs)下での強化学習手法の提案を行った。 POMDPsは、これまで主として扱われてきたMDPsを超えるクラスとして近年特に注目を集めているクラスである。POMDPsにおける強化学習手法が確立されることで、強化学習の工学的応用に広く貢献するものと考える。 ところで、これまでのPOMDPsに対する強化学習手法は、メモリーベース的手法と確率的政策を学習手法とに大別される。それに対し、研究代表者らは、従来とは異なる新たな視点から、新たな手法の提案を行った。 具体的には、当初の計画通り、まず初めに、これまで提案している強化学習手法である、Profit Sharing(PS)および合理的政策形成アルゴリズム(RPM)のPOMDPs下での挙動を解析した。そしてその結果を踏まえ、これらの手法に確率的政策の考えを導入した手法であるPS-r*の提案を行った。PS-r*は、従来のメモリーベース法よりも少ないメモリで、従来の確率的政策を学習する手法では、必ずしも保証されていない、ランダム選択に対する優位性を保証した手法である。 PS-r*は、現時点では、1種類の報酬しか扱えない。現在、研究代表者らは、PS-r*を複数種類の報酬および罰が存在する環境下に拡張することを目指している。そのような手法が完成すれば、本来の目的である、強化学習のより多くの実問題への適用が可能になるものと考える。 現在、具体的な応用先としてはサッカーサーバを用いている。今後は、今年度に引き続きサッカーサーバでの有効性を検証するとともに、より現実的な問題への適用を検討する予定である。
|
-
[Publications] 宮崎和光: "Profit Sharingの不完全知覚環境下への拡張:PS-r*の提案と評価"人工知能学会論文誌. 18・5. 286-296 (2003)
-
[Publications] Miyazaki, K.: "Generating Cooperative Behavior by Multi-Agent Profit Sharing on the Soccer Game"Proc.Of the 4th International Symposium on Advanced Intelligent Systems. 166-169 (2003)