研究概要 |
平成22年度においては、当初の予定通り、連続入出力に対応したXoLを満たす手法の提案を行った。当該研究成果は、国際会議(Miyazaki, K., The Penalty Avoiding Rational Policy Making algorithm in Continuous Action Spaces, 11th International Conference on Intelligent Data Engineering and Automated Learning, pp.178-185, 2010)において発表を行った。 そこでは、2007年に提案した連続入力に対応した罰回避政策形成アルゴリズム(PARP)(Miyazaki, K. and Kobayashi, S., A Reinforcement Learning System for Penalty Avoiding in Continuous State Spaces, Journal of Advanced Computational Intelligence and Intelligent Informatics, Vol.11, No.6, pp.668-676, 2007)に対し、連続行動に適した独自の行動選択方法を組み合わせることで、多様な行動の生成を可能にした。また、倒立振子の振り上げ安定化問題に適用することで、提案手法の有効性を確認した。 このことは、報酬と罰が各々高々1種類の場合のXoLの基本的手法が確立されたことを意味する。また、当該研究成果は、平成23年度以降に行う予定である「複数種類の報酬と罰への対応」「XoLの応用例の探求」「報酬と罰の設計指針の確立」等の研究の進展に大きく寄与するものであると考える。
|