2006 年度研究成果報告書概要

重点サンプリングによる進化計算と強化学習の高速化と統合

研究課題

研究課題/領域番号	16300040
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東京工業大学
研究代表者	小林重信東京工業大学, 大学院総合理工学研究科, 教授 (40016697)
研究分担者	佐久間淳東京工業大学, 大学院総合理工学研究科, 助手 (90376963)
研究期間 (年度)	2004 – 2006
キーワード	進化計算 / 遺伝アルゴリズム / 実数値GA / 強化学習 / 重点サンプリング / インスタンスベース政策 / 多目的最適化 / ハイブリッドGA
研究概要	重点サンプリングの考え方をベースに、進化計算と強化学習の高速化を図るとともに、両者の相補性に着目し、両者を適切に融合する手法を構築することを目的に研究を行い、以下の成果を得た。 (1)重点サンプリングを用いたGAによる強化学習強化学習において過去の経験を有効に利用するために重点サンプリングと呼ばれる統計的手法に着目し、大域的最適政策を効率良く求める手法を提案した。重点サンプリングを用いてGAの親集団の経験を再利用することにより、子個体の政策評価を推定する方法を提案し、環境とのインタラクションを削減できることを示した。さらに、子個体の生成に交叉と政策勾配を用いた局所探索を併用することで、多峰性への対応が可能になり、かつ学習が高速化されることを確認した。 (2)ハイブリッドGAによるインスタンスベース政策学習インスタンスの集合で強化学習の政策を表現し、GAによって最適化する直接探索法を提案した。インスタンスは連続状態・連続行動の対で表される。インスタンスベース政策の最適化には組み合わせ最適化と関数最適化の側面があることに着目し、インスタンス集合を最適化するための2項分布交叉BDX、インスタンスのパラメータを最適化するための突然変異交叉INDX、およびこれらを統合したハイブリッドGAを提案し、並列二重倒立振子振り上げ安定化問題などで妥当性と有効性を確認した。 (3)多目的関数最適化のためのパレート降下法とその応用多目的関数最適化問題の解概念であるパレート解は一般に集合をなす。集団で解を探索するGAはパレート解集合の近似解集合を一度の探索で求める点で効率的であるが、探索終盤に進化的停滞が生じ、精度において問題がある。本研究では、多目的GAが探索終盤で進化的停滞を生じる原因を解明し、高精度の解を得るためには局所探索の導入が必要不可欠であることを指摘し、高性能な局所探索法としてパレート降下法を提案した。さらに、多目的GAによる探索の後でパレート降下法を適用するGA then LSの枠組みが推奨されることを性能比較実験により示した。

研究成果
(16件)

すべて 2007 2006 2005

すべて雑誌論文 (16件)

[雑誌論文] 合理的政策形成アルゴリズムの連続値入力への拡張2007
- 著者名/発表者名
  宮崎和, 木村元, 小林重信
- 雑誌名
  
  人工知能学会論文誌 22・3
  
  ページ: 332-341
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] ハイブリッドGAによるインスタンスベース政策学習-SLIPの提案と評価-2006
- 著者名/発表者名
  土谷千加夫, 塩川祐介, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  計測自動制御学会論文集 42・12
  
  ページ: 1344-1352
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006
- 著者名/発表者名
  田中雅晴, 土谷千加夫, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・6
  
  ページ: 547-555
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 多目的関数最適化のための局所探索 : パレー卜降下法2006
- 著者名/発表者名
  原田健, 佐久間淳, 池田心, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・4
  
  ページ: 340-350
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ : GA then LSの推奨2006
- 著者名/発表者名
  原田健, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・6
  
  ページ: 482-492
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Saving MGG : Reducing Fitness Evaluations for Real-coded GA/MGG2006
- 著者名/発表者名
  Tanaka, M., Tsuchiya, H., Sakuma,.J., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.6
  
  ページ: 547-555
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] SLIP : A Sophisticated Learner for Instance-based Policy using Hybrid GA2006
- 著者名/発表者名
  Tsuchiya, C., Shiokawa, Y., Ikeda, K., Sakuma, J., Ono, ' I., Kobayashi, S.
- 雑誌名
  
  Transactions of Society of Instrument and Control Engineers Vol.42, No.12
  
  ページ: 1344-1352
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Local Search for Multiobjective Function optimization : Pareto Descent Method2006
- 著者名/発表者名
  Harada, K., Sakuma, J., Ikeda, K., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.4
  
  ページ: 340-350
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Hybridization of Genetic Algorithm with Local Search in Multiobjective Function optimization : Recommendation of GA then LS2006
- 著者名/発表者名
  Harada, K., Ikeda, K., Sakuma, J., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.6
  
  ページ: 482-492
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] 重点サンプリングを用いたGAによる強化学習2005
- 著者名/発表者名
  土谷千加夫, 木村元, 佐久間淳, 小林重信
- 雑誌名
  
  人工知能学会論文誌 20・1
  
  ページ: 1-10
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005
- 著者名/発表者名
  青木圭, 池田心, 木村元, 小林重信
- 雑誌名
  
  システム制御情報学会論文誌 18・1
  
  ページ: 81-88
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Fusion of Soft Computing and Hard Computing for Large-scale Plants : A General Model2005
- 著者名/発表者名
  Kamiya, A., Ovaska, S.J., Roy, S., Kobayashi, S.
- 雑誌名
  
  Applied Soft Computing Journal 5・3
  
  ページ: 265-279
- 説明
  「研究成果報告書概要(和文)」より
[雑誌論文] Reinforcement Learning by GA using Importance Sampling2005
- 著者名/発表者名
  Tsuchiya, C., Kimura, H., Sakuma, J., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.20, No.1
  
  ページ: 1-10
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Distributed Reinforcement Learning based on a-domination Strategy and its Application to Shared Resource Problems2005
- 著者名/発表者名
  Aoki, K, Ikeda, K., Kimura, H., Kobayashi, S.
- 雑誌名
  
  Journal of Institute of Systems, Control and Information Engineers Vol.18, No.3
  
  ページ: 81-88
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] An Extension of the Rational policy Making Algorithm to Continuous State Spaces2005
- 著者名/発表者名
  Miyazaki, K., Kimura, H., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.22, No.3
  
  ページ: 332-341
- 説明
  「研究成果報告書概要(欧文)」より
[雑誌論文] Fusion of Soft Computing and Hard Computing. for Large-scale Plants : A General Model2005
- 著者名/発表者名
  Kamiya, A., Ovaska, S.J., Roy, S., Kobayashi, S.
- 雑誌名
  
  Applied Soft Computing Journal Vol.5, No.3
  
  ページ: 265-279
- 説明
  「研究成果報告書概要(欧文)」より

2006 年度 研究成果報告書概要

重点サンプリングによる進化計算と強化学習の高速化と統合

研究代表者

小林 重信 東京工業大学, 大学院総合理工学研究科, 教授 (40016697)

研究成果

[雑誌論文] 合理的政策形成アルゴリズムの連続値入力への拡張2007

著者名/発表者名

雑誌名

説明

[雑誌論文] ハイブリッドGAによるインスタンスベース政策学習-SLIPの提案と評価-2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006

著者名/発表者名

雑誌名

説明

[雑誌論文] 多目的関数最適化のための局所探索 : パレー卜降下法2006

著者名/発表者名

雑誌名

説明

[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ : GA then LSの推奨2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Saving MGG : Reducing Fitness Evaluations for Real-coded GA/MGG2006

著者名/発表者名

雑誌名

説明

[雑誌論文] SLIP : A Sophisticated Learner for Instance-based Policy using Hybrid GA2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Local Search for Multiobjective Function optimization : Pareto Descent Method2006

著者名/発表者名

雑誌名

説明

[雑誌論文] Hybridization of Genetic Algorithm with Local Search in Multiobjective Function optimization : Recommendation of GA then LS2006

著者名/発表者名

雑誌名

説明

[雑誌論文] 重点サンプリングを用いたGAによる強化学習2005

著者名/発表者名

雑誌名

説明

[雑誌論文] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Fusion of Soft Computing and Hard Computing for Large-scale Plants : A General Model2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Reinforcement Learning by GA using Importance Sampling2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Distributed Reinforcement Learning based on a-domination Strategy and its Application to Shared Resource Problems2005

著者名/発表者名

雑誌名

説明

[雑誌論文] An Extension of the Rational policy Making Algorithm to Continuous State Spaces2005

著者名/発表者名

雑誌名

説明

[雑誌論文] Fusion of Soft Computing and Hard Computing. for Large-scale Plants : A General Model2005

著者名/発表者名

雑誌名

説明

2006 年度研究成果報告書概要

小林重信東京工業大学, 大学院総合理工学研究科, 教授 (40016697)