重点サンプリングによる進化計算と強化学習の高速化と統合

研究課題

研究課題/領域番号	16300040
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東京工業大学
研究代表者	小林重信東京工業大学, 大学院総合理工学研究科, 教授 (40016697)
研究分担者	佐久間淳東京工業大学, 大学院総合理工学研究科, 助手 (90376963) 木村元九州大学, 大学院・工学系研究科, 助教授 (40302963)
研究期間 (年度)	2004 – 2006
研究課題ステータス	完了 (2006年度)
配分額 *注記	15,000千円 (直接経費: 15,000千円) 2006年度: 3,600千円 (直接経費: 3,600千円) 2005年度: 3,600千円 (直接経費: 3,600千円) 2004年度: 7,800千円 (直接経費: 7,800千円)
キーワード	進化計算 / 遺伝アルゴリズム / 実数値GA / 強化学習 / 重点サンプリング / インスタンスベース政策 / 多目的最適化 / ハイブリッドGA / 政策形成 / 大域的最適化 / パレート降下法 / 遺伝的アルゴリズム / Actor-Critic / 政策学習 / 政策勾配法 / 確率的傾斜法
研究概要	重点サンプリングの考え方をベースに、進化計算と強化学習の高速化を図るとともに、両者の相補性に着目し、両者を適切に融合する手法を構築することを目的に研究を行い、以下の成果を得た。 (1)重点サンプリングを用いたGAによる強化学習強化学習において過去の経験を有効に利用するために重点サンプリングと呼ばれる統計的手法に着目し、大域的最適政策を効率良く求める手法を提案した。重点サンプリングを用いてGAの親集団の経験を再利用することにより、子個体の政策評価を推定する方法を提案し、環境とのインタラクションを削減できることを示した。さらに、子個体の生成に交叉と政策勾配を用いた局所探索を併用することで、多峰性への対応が可能になり、かつ学習が高速化されることを確認した。 (2)ハイブリッドGAによるインスタンスベース政策学習インスタンスの集合で強化学習の政策を表現し、GAによって最適化する直接探索法を提案した。インスタンスは連続状態・連続行動の対で表される。インスタンスベース政策の最適化には組み合わせ最適化と関数最適化の側面があることに着目し、インスタンス集合を最適化するための2項分布交叉BDX、インスタンスのパラメータを最適化するための突然変異交叉INDX、およびこれらを統合したハイブリッドGAを提案し、並列二重倒立振子振り上げ安定化問題などで妥当性と有効性を確認した。 (3)多目的関数最適化のためのパレート降下法とその応用多目的関数最適化問題の解概念であるパレート解は一般に集合をなす。集団で解を探索するGAはパレート解集合の近似解集合を一度の探索で求める点で効率的であるが、探索終盤に進化的停滞が生じ、精度において問題がある。本研究では、多目的GAが探索終盤で進化的停滞を生じる原因を解明し、高精度の解を得るためには局所探索の導入が必要不可欠であることを指摘し、高性能な局所探索法としてパレート降下法を提案した。さらに、多目的GAによる探索の後でパレート降下法を適用するGA then LSの枠組みが推奨されることを性能比較実験により示した。

報告書

(4件)

研究成果
(32件)

すべて 2007 2006 2005 2004

すべて雑誌論文 (32件)

[雑誌論文] 合理的政策形成アルゴリズムの連続値入力への拡張2007
- 著者名/発表者名
  宮崎和, 木村元, 小林重信
- 雑誌名
  
  人工知能学会論文誌 22・3
  
  ページ: 332-341
- NAID
  10022007639
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] ハイブリッドGAによるインスタンスベース政策学習-SLIPの提案と評価-2006
- 著者名/発表者名
  土谷千加夫, 塩川祐介, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  計測自動制御学会論文集 42・12
  
  ページ: 1344-1352
- NAID
  10018422330
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006
- 著者名/発表者名
  田中雅晴, 土谷千加夫, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・6
  
  ページ: 547-555
- NAID
  10022006907
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] 多目的関数最適化のための局所探索 : パレー卜降下法2006
- 著者名/発表者名
  原田健, 佐久間淳, 池田心, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・4
  
  ページ: 340-350
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ : GA then LSの推奨2006
- 著者名/発表者名
  原田健, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21・6
  
  ページ: 482-492
- NAID
  10022566669
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Saving MGG : Reducing Fitness Evaluations for Real-coded GA/MGG2006
- 著者名/発表者名
  Tanaka, M., Tsuchiya, H., Sakuma,.J., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.6
  
  ページ: 547-555
- NAID
  10022006907
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] SLIP : A Sophisticated Learner for Instance-based Policy using Hybrid GA2006
- 著者名/発表者名
  Tsuchiya, C., Shiokawa, Y., Ikeda, K., Sakuma, J., Ono, ' I., Kobayashi, S.
- 雑誌名
  
  Transactions of Society of Instrument and Control Engineers Vol.42, No.12
  
  ページ: 1344-1352
- NAID
  10018422330
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Local Search for Multiobjective Function optimization : Pareto Descent Method2006
- 著者名/発表者名
  Harada, K., Sakuma, J., Ikeda, K., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.4
  
  ページ: 340-350
- NAID
  10022006535
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Hybridization of Genetic Algorithm with Local Search in Multiobjective Function optimization : Recommendation of GA then LS2006
- 著者名/発表者名
  Harada, K., Ikeda, K., Sakuma, J., Ono, I., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.21, No.6
  
  ページ: 482-492
- NAID
  10022006759
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] ハイブリッドGAによるインスタントスペース政策学習-SLIPの提案と評価-2006
- 著者名/発表者名
  土谷千加夫, 塩川裕介, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  計測自動制御学会論文集 42
  
  ページ: 1344-1352
- 関連する報告書
  2006 実績報告書
[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006
- 著者名/発表者名
  田中雅晴, 土谷千加夫, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21
  
  ページ: 547-555
- NAID
  10022006907
- 関連する報告書
  2006 実績報告書
[雑誌論文] 多目的関数最適化のための局所探索 : パレート降下法2006
- 著者名/発表者名
  原田健, 佐久間淳, 池田心, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21
  
  ページ: 340-350
- NAID
  10022006535
- 関連する報告書
  2006 実績報告書
[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ;GA then LSの推奨2006
- 著者名/発表者名
  原田健, 池田心, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  人工知能学会論文誌 21
  
  ページ: 482-492
- NAID
  10022566669
- 関連する報告書
  2006 実績報告書
[雑誌論文] 形状可変ロボットによる凹凸地面走行の学習2006
- 著者名/発表者名
  藤野智宏, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第18回自律分散システム・シンポジウム資料
  
  ページ: 105-110
- NAID
  10022566209
- 関連する報告書
  2005 実績報告書
[雑誌論文] 把持・繰り動作のプランニングと強化学習2006
- 著者名/発表者名
  石見幸樹, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第18回自律分散システム・シンポジウム資料
  
  ページ: 143-148
- NAID
  10022566265
- 関連する報告書
  2005 実績報告書
[雑誌論文] 多目的最適化のための局所探索:パレート降下法2006
- 著者名/発表者名
  原田健, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第18回自律分散システム・シンポジウム資料
  
  ページ: 351-356
- NAID
  10022566657
- 関連する報告書
  2005 実績報告書
[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ:GA then LAの推奨2006
- 著者名/発表者名
  原田健, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第18回自律分散システム・シンポジウム資料
  
  ページ: 357-362
- 関連する報告書
  2005 実績報告書
[雑誌論文] ヒトの関節軌道データと逆運動学を利用した2足歩行ロボットの学習2006
- 著者名/発表者名
  村田栄理, 佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第38回システム工学部会研究会資料
  
  ページ: 93-98
- 関連する報告書
  2005 実績報告書
[雑誌論文] 実数値GAによるインスタンスベース政策の最適化2006
- 著者名/発表者名
  土谷千加夫佐久間淳, 小野功, 小林重信
- 雑誌名
  
  第33回知能システムシンポジウム資料
  
  ページ: 43-48
- 関連する報告書
  2005 実績報告書
[雑誌論文] 重点サンプリングを用いたGAによる強化学習2005
- 著者名/発表者名
  土谷千加夫, 木村元, 佐久間淳, 小林重信
- 雑誌名
  
  人工知能学会論文誌 20・1
  
  ページ: 1-10
- NAID
  10022004767
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005
- 著者名/発表者名
  青木圭, 池田心, 木村元, 小林重信
- 雑誌名
  
  システム制御情報学会論文誌 18・1
  
  ページ: 81-88
- NAID
  10014507798
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Fusion of Soft Computing and Hard Computing for Large-scale Plants : A General Model2005
- 著者名/発表者名
  Kamiya, A., Ovaska, S.J., Roy, S., Kobayashi, S.
- 雑誌名
  
  Applied Soft Computing Journal 5・3
  
  ページ: 265-279
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Reinforcement Learning by GA using Importance Sampling2005
- 著者名/発表者名
  Tsuchiya, C., Kimura, H., Sakuma, J., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.20, No.1
  
  ページ: 1-10
- NAID
  10022004767
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Distributed Reinforcement Learning based on a-domination Strategy and its Application to Shared Resource Problems2005
- 著者名/発表者名
  Aoki, K, Ikeda, K., Kimura, H., Kobayashi, S.
- 雑誌名
  
  Journal of Institute of Systems, Control and Information Engineers Vol.18, No.3
  
  ページ: 81-88
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] An Extension of the Rational policy Making Algorithm to Continuous State Spaces2005
- 著者名/発表者名
  Miyazaki, K., Kimura, H., Kobayashi, S.
- 雑誌名
  
  Journal of Japanese Society for Artificial Intelligence Vol.22, No.3
  
  ページ: 332-341
- NAID
  10022007639
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] Fusion of Soft Computing and Hard Computing. for Large-scale Plants : A General Model2005
- 著者名/発表者名
  Kamiya, A., Ovaska, S.J., Roy, S., Kobayashi, S.
- 雑誌名
  
  Applied Soft Computing Journal Vol.5, No.3
  
  ページ: 265-279
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2006 研究成果報告書概要
[雑誌論文] 重点サンプリングを用いたGAによる強化学習2005
- 著者名/発表者名
  土谷千加夫, 木村元, 佐久間淳, 小林重信
- 雑誌名
  
  人工知能学会論文誌 20巻・1A号
  
  ページ: 1-10
- NAID
  10022004767
- 関連する報告書
  2004 実績報告書
[雑誌論文] α-domination戦略に基づく分散強化学習と資源共有問題への応用2005
- 著者名/発表者名
  青木圭, 池田心, 木村元, 小林重信
- 雑誌名
  
  システム制御情報学会論文誌 18巻・3号
  
  ページ: 81-88
- NAID
  10014507798
- 関連する報告書
  2004 実績報告書
[雑誌論文] 重点サンプリングを用いた政策勾配の推定による子個体生成2005
- 著者名/発表者名
  土谷千加夫, 木村元, 小林重信
- 雑誌名
  
  SICE第31回知能システムシンポジウム資料
  
  ページ: 145-150
- 関連する報告書
  2004 実績報告書
[雑誌論文] GAによる政策探索における政策表現と学習効率2005
- 著者名/発表者名
  土谷千加夫, 佐久間淳, 小林重信
- 雑誌名
  
  SICE第17回自律分散シンポジウム資料
  
  ページ: 289-294
- 関連する報告書
  2004 実績報告書
[雑誌論文] Distributed Reinforcement learning using Bi-directional Decision Making for Multi-criteria Control of Multi-Staae Flow Systems2004
- 著者名/発表者名
  K.Aoki, H.Kimura, S.Kobayashi
- 雑誌名
  
  Proc.Of 8^<th> Conf.on Intelligent Autonomous Systems
  
  ページ: 281-290
- 関連する報告書
  2004 実績報告書
[雑誌論文] Policy Learning by GA using Importance Sampling2004
- 著者名/発表者名
  T.Tsuchiya, H.Kimura, S.Kobayashi
- 雑誌名
  
  Proc.Of 8^<th> Conf.on Intelligent Autonomous Systems
  
  ページ: 385-394
- 関連する報告書
  2004 実績報告書

重点サンプリングによる進化計算と強化学習の高速化と統合

研究代表者

小林 重信 東京工業大学, 大学院総合理工学研究科, 教授 (40016697)

15,000千円 (直接経費: 15,000千円)

報告書

研究成果

[雑誌論文] 合理的政策形成アルゴリズムの連続値入力への拡張2007

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] ハイブリッドGAによるインスタンスベース政策学習-SLIPの提案と評価-2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] 多目的関数最適化のための局所探索 : パレー卜降下法2006

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ : GA then LSの推奨2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Saving MGG : Reducing Fitness Evaluations for Real-coded GA/MGG2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] SLIP : A Sophisticated Learner for Instance-based Policy using Hybrid GA2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Local Search for Multiobjective Function optimization : Pareto Descent Method2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Hybridization of Genetic Algorithm with Local Search in Multiobjective Function optimization : Recommendation of GA then LS2006

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] ハイブリッドGAによるインスタントスペース政策学習-SLIPの提案と評価-2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Saving MGG : 実数値GA/MGGにおける適応度評価回数の削減2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 多目的関数最適化のための局所探索 : パレート降下法2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 多目的関数最適化におけるGAと局所探索の組み合わせ;GA then LSの推奨2006

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 形状可変ロボットによる凹凸地面走行の学習2006

著者名/発表者名

小林重信東京工業大学, 大学院総合理工学研究科, 教授 (40016697)