強化学習を実問題に応用する際に重要となる報酬および罰の設計指針に関する研究
Project/Area Number |
13780316
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 大学評価・学位授与機, 構・学位審査研究部, 助教授 (20282866)
|
Project Period (FY) |
2001 – 2002
|
Project Status |
Completed (Fiscal Year 2002)
|
Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2001: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Keywords | 強化学習 / 報酬と罰 / オセロゲーム / POMDPs / 罰回避政策形成アルゴリズム / Profit Sharing / Q-learning / マルコフ決定過程 / 罰の回避 |
Research Abstract |
強化学習を実問題に応用するためには報酬および罰の設計が重要となる。現在、この問題に対峙した手法として罰回避政策形成アルゴリズム(PARP)が知られている。当初、本研究課題では、PARPを多種類の報酬および罰が存在する環境下に拡張することを進めていた。しかしその過程で、PARPが有する膨大な状態空間へは適用しづらいという欠点が無視できなくなり、この問題への対応を先行して行うこととした。 一般にPARPは、状態数の2乗のオーダーのメモリを要する。膨大な状態空間を有する多くの実問題では、このことが制約となり、学習が困難となる場合がある。そこで本研究課題では、まず初めに、状態遷移の一部が既知の離散マルコフ決定過程を対象に、状態数のオーダーのメモリで学習を可能とする手法を提案した。実問題としてオセロゲームを取り上げ提案手法の有効性を確認した。 さらにより一般的な問題に適用すべく、対象問題クラスの拡張を行った。具体的には、PARPをProfit Sharingと呼ばれる強化学習手法と適切に融合させることで、非マルコフ的環境として知られる部分観測マルコフ決定過程(POMDPs)の一部のクラスまでも学習の対象とする手法を提案した。TeamBotsと呼ばれるサッカーサーバへ適用することで提案手法の有効性を確認した。 上記の成果を踏まえ現在は、ふたつの方向で研究を進めている。ひとつは対象問題クラスのさらなる拡大である。これに関しては、現在、PARPとの融合を視野に入れつつ、Profit SharingのPOMDPs全体への拡張を行っている段階である。もうひとつは、複数種類の報酬および罰への拡張である。こちらに関しては、PARPを複数組み合わせることである程度実現可能であると考えおり、具体的なアルゴリズムならびに実装例を構築している最中である。これにより当初の目的である報酬および罰の設計指針がより明確になるものと考えている。
|
Report
(2 results)
Research Products
(12 results)