2005 Fiscal Year Annual Research Report

重点サンプリングによる進化計算と強化学習の高速化と統合

Research Project

Project/Area Number	16300040
Research Institution	Tokyo Institute of Technology
Principal Investigator	小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
Co-Investigator(Kenkyū-buntansha)	佐久間淳東京工業大学, 大学院・総合理工学研究科, 助手 (90376963)
Keywords	進化計算 / 遺伝的アルゴリズム / 実数値GA / 重点サンプリング / 強化学習 / Actor-Critic / 政策学習 / 大域的最適化
Research Abstract	状態から行動への写像である政策を環境とのインタラクションを通じて獲得する問題では、大域的最適政策をできるだけ高速に獲得することが要請される。本研究では、進化計算の大域的探索能力及び強化学習の政策獲得能力、重点サンプリングによる評価値推定能力を適切に組み合わせることで上記の要請に応えることを目的に研究を行い,当該年度は以下の成果を得た。・重点サンプリングによる政策の評価値推定確率的政策の最適化問題を対象に、実数値GA (Real-coded Genetic Algorithms)に基づく直接探索で課題とされる実評価回数の削減を達成するために、重点サンプリングによる政策評価値の推定法としてPVISを提案した。さらに、局所探索に利用するための製作勾配の推定法としてPGISを提案した提案手法を2分木問題、匍匐ロボットに適用することにより、提案手法の有効性を確認した。・政策のインスタンスベース表現とGAによる最適化決定的政策の最適化問題を対象に、政策のインスタンスベース表現とその最適化のための新しい枠組みを提案した。状態行動対で表されるインスタンス集合を政策のノンパラメトリック表現と捉えGAによる探索の対象とした。探索空間が複雑な景観を有する場合、インスタンス間に強い依存性が生じるために、インスタンスのわずかな変化が政策に大きな変化をもたらすこと、初期値に強く依存する問題点を明らかにした。インスタンス間の依存性を解決するために、直系の概念を取り入れた遺伝操作が必要であるとの考えから、直系にバイアスをかけて子個体を生成する二項分布交叉(BDX)を提案した。さらに、初期値依存性を緩和するために未参照インスタンスを初期化するIterated refreshmentを提案した。これらを世代交代モデルCCMによって統合するアルゴリズムを提案した。提案手法を並列二重倒立振り上げ安定化問題に適用し、その有効性を確認した。これらの研究成果は学術雑誌論文、国際会議、国内シンポジウム等で公表した。

Research Products
(6 results)

All 2006

All Journal Article (6 results)

[Journal Article] 形状可変ロボットによる凹凸地面走行の学習2006
- Author(s)
  藤野智宏, 佐久間淳, 小野功, 小林重信
- Journal Title
  
  第18回自律分散システム・シンポジウム資料
  
  Pages: 105-110
[Journal Article] 把持・繰り動作のプランニングと強化学習2006
- Author(s)
  石見幸樹, 佐久間淳, 小野功, 小林重信
- Journal Title
  
  第18回自律分散システム・シンポジウム資料
  
  Pages: 143-148
[Journal Article] 多目的最適化のための局所探索:パレート降下法2006
- Author(s)
  原田健, 佐久間淳, 小野功, 小林重信
- Journal Title
  
  第18回自律分散システム・シンポジウム資料
  
  Pages: 351-356
[Journal Article] 多目的関数最適化におけるGAと局所探索の組み合わせ:GA then LAの推奨2006
- Author(s)
  原田健, 佐久間淳, 小野功, 小林重信
- Journal Title
  
  第18回自律分散システム・シンポジウム資料
  
  Pages: 357-362
[Journal Article] ヒトの関節軌道データと逆運動学を利用した2足歩行ロボットの学習2006
- Author(s)
  村田栄理, 佐久間淳, 小野功, 小林重信
- Journal Title
  
  第38回システム工学部会研究会資料
  
  Pages: 93-98
[Journal Article] 実数値GAによるインスタンスベース政策の最適化2006
- Author(s)
  土谷千加夫佐久間淳, 小野功, 小林重信
- Journal Title
  
  第33回知能システムシンポジウム資料
  
  Pages: 43-48

2005 Fiscal Year Annual Research Report

重点サンプリングによる進化計算と強化学習の高速化と統合

Principal Investigator

小林 重信 東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)

Research Products

[Journal Article] 形状可変ロボットによる凹凸地面走行の学習2006

Author(s)

Journal Title

[Journal Article] 把持・繰り動作のプランニングと強化学習2006

Author(s)

Journal Title

[Journal Article] 多目的最適化のための局所探索:パレート降下法2006

Author(s)

Journal Title

[Journal Article] 多目的関数最適化におけるGAと局所探索の組み合わせ:GA then LAの推奨2006

Author(s)

Journal Title

[Journal Article] ヒトの関節軌道データと逆運動学を利用した2足歩行ロボットの学習2006

Author(s)

Journal Title

[Journal Article] 実数値GAによるインスタンスベース政策の最適化2006

Author(s)

Journal Title

小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)