2004 Fiscal Year Annual Research Report

重点サンプリングによる進化計算と強化学習の高速化と統合

Research Project

Project/Area Number	16300040
Research Category	Grant-in-Aid for Scientific Research (B)
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
Co-Investigator(Kenkyū-buntansha)	木村元九州大学, 大学院・工学系研究科, 助教授 (40302963)
Keywords	重点サンプリング / 強化学習 / 進化計算 / 政策形成 / 大域的最適化 / 遺伝的アルゴリズム / 政策勾配法 / 確率的傾斜法
Research Abstract	強化学習の目的は環境とのインタラクションを通じて平均報酬を最大化する政策を学習することにある。ここで、政策とは状態から行動への写像をいう。強化学習の多くは局所探索に基づいているため複雑な適応度景観をもつ政策に適用した場合局所解に陥る危険性がある。一方、GAは集団で解を探索する多点探索法であることから多峰性の景観を持つ問題に対応できる利点を持つ。しかし、GAによる接近では各個体がそれぞれひとつの政策を表すため環境とのインタラクションが膨大になるという欠点を持つ。本研究では、過去の経験を有効に利用するために重点サンプリングと呼ばれる統計的手法に着目し、大域的政策を効率よく発見する方法の確立を目指す。平成16年度は重点サンプリングを導入した2つの接近を提案し、その有効性を評価した。第1の接近として、重点サンプリングを用いてGAの親集団の経験を再利用することにより子個体の政策評価を行う方法を提案した。これにより、環境とのインタラクションを大幅に削減することが期待できる。第2の接近として、子個体の生成に交叉と政策勾配を用いた局所探索を併用することにより、多峰性へ対応するとともに学習を高速化する方法を提案した。提案したふたつの手法を2分木学習問題に適用して期待通りの挙動を示すことを確認している。

Research Products
(6 results)

All 2005 2004

All Journal Article (6 results)

[Journal Article] 重点サンプリングを用いたGAによる強化学習2005
- Author(s)
  土谷千加夫, 木村元, 佐久間淳, 小林重信
- Journal Title
  
  人工知能学会論文誌 20巻・1A号
  
  Pages: 1-10
[Journal Article] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005
- Author(s)
  青木圭, 池田心, 木村元, 小林重信
- Journal Title
  
  システム制御情報学会論文誌 18巻・3号
  
  Pages: 81-88
[Journal Article] 重点サンプリングを用いた政策勾配の推定による子個体生成2005
- Author(s)
  土谷千加夫, 木村元, 小林重信
- Journal Title
  
  SICE第31回知能システムシンポジウム資料
  
  Pages: 145-150
[Journal Article] GAによる政策探索における政策表現と学習効率2005
- Author(s)
  土谷千加夫, 佐久間淳, 小林重信
- Journal Title
  
  SICE第17回自律分散シンポジウム資料
  
  Pages: 289-294
[Journal Article] Distributed Reinforcement learning using Bi-directional Decision Making for Multi-criteria Control of Multi-Staae Flow Systems2004
- Author(s)
  K.Aoki, H.Kimura, S.Kobayashi
- Journal Title
  
  Proc.Of 8^<th> Conf.on Intelligent Autonomous Systems
  
  Pages: 281-290
[Journal Article] Policy Learning by GA using Importance Sampling2004
- Author(s)
  T.Tsuchiya, H.Kimura, S.Kobayashi
- Journal Title
  
  Proc.Of 8^<th> Conf.on Intelligent Autonomous Systems
  
  Pages: 385-394

2004 Fiscal Year Annual Research Report

重点サンプリングによる進化計算と強化学習の高速化と統合

Principal Investigator

小林 重信 東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)

Research Products

[Journal Article] 重点サンプリングを用いたGAによる強化学習2005

Author(s)

Journal Title

[Journal Article] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005

Author(s)

Journal Title

[Journal Article] 重点サンプリングを用いた政策勾配の推定による子個体生成2005

Author(s)

Journal Title

[Journal Article] GAによる政策探索における政策表現と学習効率2005

Author(s)

Journal Title

[Journal Article] Distributed Reinforcement learning using Bi-directional Decision Making for Multi-criteria Control of Multi-Staae Flow Systems2004

Author(s)

Journal Title

[Journal Article] Policy Learning by GA using Importance Sampling2004

Author(s)

Journal Title

小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)