2002 Fiscal Year Annual Research Report
強化学習を実問題に応用する際に重要となる報酬および罰の設計指針に関する研究
Project/Area Number |
13780316
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)
|
Keywords | 強化学習 / 報酬と罰 / オセロゲーム / POMDPs / 罰回避政策形成アルゴリズム / Profit Sharing / Q-learning / マルコフ決定過程 |
Research Abstract |
強化学習を実問題に応用するためには報酬および罰の設計が重要となる。現在、この問題に対峙した手法として罰回避政策形成アルゴリズム(PARP)が知られている。当初、本研究課題では、PARPを多種類の報酬および罰が存在する環境下に拡張することを進めていた。しかしその過程で、PARPが有する膨大な状態空間へは適用しづらいという欠点が無視できなくなり、この問題への対応を先行して行うこととした。 一般にPARPは、状態数の2乗のオーダーのメモリを要する。膨大な状態空間を有する多くの実問題では、このことが制約となり、学習が困難となる場合がある。そこで本研究課題では、まず初めに、状態遷移の一部が既知の離散マルコフ決定過程を対象に、状態数のオーダーのメモリで学習を可能とする手法を提案した。実問題としてオセロゲームを取り上げ提案手法の有効性を確認した。 さらにより一般的な問題に適用すべく、対象問題クラスの拡張を行った。具体的には、PARPをProfit Sharingと呼ばれる強化学習手法と適切に融合させることで、非マルコフ的環境として知られる部分観測マルコフ決定過程(POMDPs)の一部のクラスまでも学習の対象とする手法を提案した。TeamBotsと呼ばれるサッカーサーバへ適用することで提案手法の有効性を確認した。 上記の成果を踏まえ現在は、ふたつの方向で研究を進めている。ひとつは対象問題クラスのさらなる拡大である。これに関しては、現在、PARPとの融合を視野に入れつつ、Profit SharingのPOMDPs全体への拡張を行っている段階である。もうひとつは、複数種類の報酬および罰への拡張である。こちらに関しては、PARPを複数組み合わせることである程度実現可能であると考えおり、具体的なアルゴリズムならびに実装例を構築している最中である。これにより当初の目的である報酬および罰の設計指針がより明確になるものと考えている。
|
Research Products
(9 results)
-
[Publications] 宮崎和光: "罰を回避する合理的政策の学習"人工知能学会誌. 16・2. 148-156 (2001)
-
[Publications] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Policy Making and its Extensions and an Applications to the Othello Game"Proceedings of the 7th International Conference on Information Systems Analysis and Cynthesis. III. 40-44 (2001)
-
[Publications] Kazuteru Miyazaki: "Reinforcement Learning in 2-players Games"Proceedings of the 7th International Symposium on Artificial Life and Robotics. 183-186 (2002)
-
[Publications] 宮崎和光: "罰回避政策形成アルゴリズムの改良とオセロゲームへの応用"人工知能学会誌. 17・5. 548-556 (2002)
-
[Publications] Kazuteru Miyazaki: "Reinforcement Learning for Penalty Avoiding Profit Sharing and its Application to the Soccer Game"ICONIP' 02-SEAL' 02-FSKD' 02. 335-339 (2002)
-
[Publications] 宮崎和光: "罰を回避するProfit Sharingの提案"第45回自動制御連合講演会. 167-170 (2002)
-
[Publications] 寺田賢: "マルチエージェント強化学習によるサッカーゲームにおける協調行動の学習"第45回自動制御連合講演会. 441-442 (2002)
-
[Publications] Kazuteru Miyazaki: "Comparison with Profit Sharing and Random Selection in POMDPs"Joint 1st International Conference on Soft Computing and Intelligent Systems. (CD-ROM(全5ページ)). (2002)
-
[Publications] 宮崎和光: "POMDPs環境におけるProfit Sharingとランダム選択の理論的比較"計測自動制御学会 システム・情報部門学術講演会. (CD-ROM(全6ページ)). (2002)