2002 Fiscal Year Annual Research Report
強化学習における確率的ダイナミクスの表現系とその幾何構造
Project/Area Number |
02J03714
|
Research Institution | Kyoto University |
Principal Investigator |
岩田 一貴 京都大学, 情報学研究科, 特別研究員(DC1)
|
Keywords | 強化学習 / 情報理論 / 予測符号化 / マルコフ決定過程 / マルコフ情報源 / ドメインの大きさ / 確率構造の複雑さ / Lempel-Ziv符号 |
Research Abstract |
今年度は,強化学習の枠組みを情報理論的に解析することで主に2つの研究成果を挙げた.1つは,Temporal Difference学習による収益系列の予測符号化を使った,新たな行動選択戦略の基準についてである.マルコフ決定過程に従うような学習過程においては,状態と行動についての収益があるパラメトリックな確率分布で決まるマルコフ情報源に従うとみなすことができる.この系列を予測符号化することで得られる符号レートは,収益についての不確実性(最小符号レート)と推定誤差(冗長度)の和として書き表せる.この性質を利用することで,最適化と効率という2つの意味で優れた「損失に対する情報量基準」を提案し,その有効性を計算機実験によって確かめた.もう1つは,学習過程におけるドメインの大きさと確率構造の複雑さの影響についてである.マルコフ決定過程における状態行動対及び報酬をそれぞれ文字列表現することで,その文字列はマルコフ情報源からの出力とみなすことができる.その文字列のLempel-Ziv符号長を解析することで,学習の初期段階において学習はドメインの大きさに影響され,学習が進むにつれ確率構造の複雑さに強く影響されるということを数理的,実験的に明らかにした.また,この結果は定常でない環境下においても有効であることがわかった.以上の成果は国内の学会や研究会国外での国際会議において発表され,現在は学術雑誌に投稿中である.
|
Research Products
(5 results)
-
[Publications] K.Iwata, N.Ishii: "Lempel-Ziv Coding in Reinforcement Learning"Proceedings of the 3rd International Conference on Intelligent Data Engineering and Automated Learning. LNCS2412. 531-537 (2002)
-
[Publications] K.Iwata, K.Ikeda: "Temporal Difference Coding in Reinforcement Learning"Proceedings of the 4th International Conference on Intelligent Data Engineering and Automated Learning. (2003)
-
[Publications] 岩田一貴, 池田和司: "強化学習における経験系列のLempel-Ziv符号化"第5回情報論的学習理論ワークショップ予稿集. 65-70 (2002)
-
[Publications] 岩田一貴, 池田和司: "強化学習における収益の情報源符号化とその行動選択への応用"第1回情報科学技術フォーラム講演論文集情報技術レターズ. 111-112 (2002)
-
[Publications] K.Iwata, K.Ikeda: "On the Distribution of Empirical Sequence in Reinforcement Learning"第14回東海ファジイ研究会講演論文集. (2003)