2001 Fiscal Year Annual Research Report
強化学習を実問題に応用する際に重要となる報酬および罰の設計指針に関する研究
Project/Area Number |
13780316
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)
|
Keywords | 強化学習 / 報酬と罰 / 罰の回避 / オセロゲーム / 罰回避政策形成アルゴリズム / Profit Sharing / Q-learning / マルコフ決定過程 |
Research Abstract |
今年度は、まず初めに、これまでに提案していた「罰回避政策形成アルゴリズム」をオセロゲームに適用することを行った。一般に、ゲーム問題は離散マルコフ決定過程の問題として記述されるが、そこでは、必ずしも状態遷移確率を同定し最適性を保証する必要はなく、負けないこと、すなわち罰の回避が大前提となる場合が多い。この性質によりゲーム問題は、罰回避政策形成アルゴリズムに適した問題領域であると言えるが、適切な学習を保証するためには、過去に経験したすべてのルールと状態遷移先の対を記憶し続けなければならない。膨大な状態空間を持つゲーム問題等では、この制約を緩和する手法が重要となる。 今年度本研究では、罰回避政策形成アルゴリズムにおいて記憶量を節約するために、状態遷移の一部が既知の離散マルコフ決定過程環境を対象に、罰を得る可能性のある状態のみを記憶し少ないメモリで学習を進行させる手法を提案した。さらに、膨大な状態空間を効率よく探索するために、既存知識を制約条件として罰回避政策形成アルゴリズムに組み込む方法を提案した。提案手法の有効性を、代表的な探索強化型対戦オセロプログラムであるKITTYとの対戦を通じ確認した。 さらに現在は、拡張された罰回避政策形成アルゴリズムを、TeamBotsと呼ばれるサッカーサーバへ適用し始めている。一般に、本問題は、複数種類の報酬および罰が存在するマルチエージェント問題として定式化される。本手法をこのような問題領域へ適用するために、まず初めに複数種類の報酬および罰が存在する環境への拡張を行い、その後マルチエージェント環境への拡張を行う予定である。これらの結果を踏まえ、本研究の最終目的である「強化学習を実問題に応用する際の報酬および罰の設計指針」を導くことを考えている。
|
Research Products
(3 results)
-
[Publications] 宮崎和光: "罰を回避する合理的政策の学習"人工知能学会誌. 15・2. 148-156 (2001)
-
[Publications] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game"Proceedings of the 7th International Conference on Information Systems Analysis and Cynthesis. III. 40-44 (2001)
-
[Publications] Kazuteru Miyazaki: "Reinforcement Learning in 2-players Games"Proceedings of the 7th International Symposium on Artificial Life and Robotics. 183-186 (2002)