強化学習における確率的ダイナミクスの表現系とその幾何構造

Research Project

Project/Area Number	02J03714
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Research Field	知能情報学
Research Institution	Kyoto University
Principal Investigator	岩田一貴京都大学, 情報学研究科, 特別研究員(DC1)
Project Period (FY)	2002 – 2004
Project Status	Completed (Fiscal Year 2004)
Budget Amount *help	¥3,000,000 (Direct Cost: ¥3,000,000) Fiscal Year 2004: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	強化学習 / マルチエージェント / マルコフ決定過程 / 漸近等分割性 / 収益最大化 / 一般化確率過程 / 典型集合 / 確率的複雑さ / 情報理論 / 予測符号化 / マルコフ情報源 / ドメインの大きさ / 確率構造の複雑さ / Lempel-Ziv符号
Research Abstract	今年度は,初めに,複数エージェント強化学習の枠組みがエルゴード的マルコフ決定過程に従い,かつ学習が十分にゆっくり進むという仮定の下で,経験系列(観測された状態,行動,報酬からなる時系列)において漸近等分割性と呼ばれる性質が成り立つことを示した.また,この性質を使って複数エージェントのマルコフ決定過程における収益最大化の解析を行った.この解析は,前年度までの単数エージェントの場合の研究成果を複数エージェントの場合に対して拡張したものである.単散エージェントの場合との違いは,複数のエージェント間の状態把握及び通信に関する制約条件が,複数エージェントの協調政策に深く影響してくる点である.その結果,制約条件は典型集合の大きさ(漸近的に確率1で出現する経験系列の集合)に影響し,その影響は学習が適当に終了する場合において漸近的に消えることを示した. 次に,単数エージェントの場合において,強化学習の枠組みに対する標準的な仮定,すなわちマルコフ性,エルゴード性,及び学習が十分にゆっくり進むという仮定を全てなくしてしまっても収益最大化が可能なのかを理論的に検証した.その検証の結果,収益最大化はそれらの仮定をなくしてもある正の確率で可能であり,収益最大化が可能な強化学習の枠組みはエルゴード的マルコフ決定過程より広いクラスの確率過程であることを示した.さらに,収益最大化が可能であるための強化学習の枠組みに対する必要条件を明らかにした. これらの研究成果は,国内の学会及び国際シンポジウム等で発表され,現在は学術雑誌に投稿中である.

Report

(3 results)

Research Products

(10 results)

All 2005 2004 Other

All Journal Article (3 results) Publications (7 results)

[Journal Article] On the Effects of Domain Size and Complexity in Empirical Distribution of Reinforcement Learning2005
- Author(s)
  Kazunori Iwata, Kazushi Ikeda, Hideaki Sakai
- Journal Title
  
  IEICE Transactions on Information and Systems Vol.E88-D No.1
  
  Pages: 135-142
- Related Report
  2004 Annual Research Report
[Journal Article] A New Criterion Using Information Gain for Action Selection Strategy in Reinforcement Learning2004
- Author(s)
  Kazunori Iwata, Kazushi Ikeda, Hideaki Sakai
- Journal Title
  
  IEEE Transactions on Neural Networks Vol.15 No.3
  
  Pages: 792-799
- Related Report
  2004 Annual Research Report
[Journal Article] The Asymptotic Equipartition Property in Reinforcement Learning and its Relation to Return Maximization
- Author(s)
  Kazunori Iwata, Kazushi Ikeda, Hideaki Sakai
- Journal Title
  
  Neural Networks (発表予定)
- Related Report
  2004 Annual Research Report
[Publications] 河本孝生, 岩田一貴, 池田和司, 林和則, 酒井英昭: "EMアルゴリズムを用いた確率的通信路に対する適応等価法"システム制御情報学会論文誌. 17・3. 809-811 (2004)
- Related Report
  2003 Annual Research Report
[Publications] Kazunori Iwata, Kazushi Ikeda, Hideaki Sakai: "A New Criterion Using Information Gain for Action Selection Strategy in Reinforcement Learning"IEEE Transactions on Neural Networks. 15・3. (2004)
- Related Report
  2003 Annual Research Report
[Publications] K.Iwata, N.Ishii: "Lempel-Ziv Coding in Reinforcement Learning"Proceedings of the 3rd International Conference on Intelligent Data Engineering and Automated Learning. LNCS2412. 531-537 (2002)
- Related Report
  2002 Annual Research Report
[Publications] K.Iwata, K.Ikeda: "Temporal Difference Coding in Reinforcement Learning"Proceedings of the 4th International Conference on Intelligent Data Engineering and Automated Learning. (2003)
- Related Report
  2002 Annual Research Report
[Publications] 岩田一貴, 池田和司: "強化学習における経験系列のLempel-Ziv符号化"第5回情報論的学習理論ワークショップ予稿集. 65-70 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 岩田一貴, 池田和司: "強化学習における収益の情報源符号化とその行動選択への応用"第1回情報科学技術フォーラム講演論文集情報技術レターズ. 111-112 (2002)
- Related Report
  2002 Annual Research Report
[Publications] K.Iwata, K.Ikeda: "On the Distribution of Empirical Sequence in Reinforcement Learning"第14回東海ファジイ研究会講演論文集. (2003)
- Related Report
  2002 Annual Research Report

強化学習における確率的ダイナミクスの表現系とその幾何構造

Principal Investigator

岩田 一貴 京都大学, 情報学研究科, 特別研究員(DC1)

¥3,000,000 (Direct Cost: ¥3,000,000)

Report

Research Products

[Journal Article] On the Effects of Domain Size and Complexity in Empirical Distribution of Reinforcement Learning2005

Author(s)

Journal Title

Related Report

[Journal Article] A New Criterion Using Information Gain for Action Selection Strategy in Reinforcement Learning2004

Author(s)

Journal Title

Related Report

[Journal Article] The Asymptotic Equipartition Property in Reinforcement Learning and its Relation to Return Maximization

Author(s)

Journal Title

Related Report

[Publications] 河本孝生, 岩田一貴, 池田和司, 林和則, 酒井英昭: "EMアルゴリズムを用いた確率的通信路に対する適応等価法"システム制御情報学会論文誌. 17・3. 809-811 (2004)

Related Report

[Publications] Kazunori Iwata, Kazushi Ikeda, Hideaki Sakai: "A New Criterion Using Information Gain for Action Selection Strategy in Reinforcement Learning"IEEE Transactions on Neural Networks. 15・3. (2004)

Related Report

[Publications] K.Iwata, N.Ishii: "Lempel-Ziv Coding in Reinforcement Learning"Proceedings of the 3rd International Conference on Intelligent Data Engineering and Automated Learning. LNCS2412. 531-537 (2002)

Related Report

[Publications] K.Iwata, K.Ikeda: "Temporal Difference Coding in Reinforcement Learning"Proceedings of the 4th International Conference on Intelligent Data Engineering and Automated Learning. (2003)

Related Report

[Publications] 岩田一貴, 池田和司: "強化学習における経験系列のLempel-Ziv符号化"第5回情報論的学習理論ワークショップ予稿集. 65-70 (2002)

Related Report

[Publications] 岩田一貴, 池田和司: "強化学習における収益の情報源符号化とその行動選択への応用"第1回情報科学技術フォーラム講演論文集情報技術レターズ. 111-112 (2002)

Related Report

[Publications] K.Iwata, K.Ikeda: "On the Distribution of Empirical Sequence in Reinforcement Learning"第14回東海ファジイ研究会講演論文集. (2003)

Related Report

岩田一貴京都大学, 情報学研究科, 特別研究員(DC1)