2006 Fiscal Year Annual Research Report
重点サンプリングによる進化計算と強化学習の高速化と統合
Project/Area Number |
16300040
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 重信 東京工業大学, 大学院総合理工学研究科, 教授 (40016697)
|
Co-Investigator(Kenkyū-buntansha) |
佐久間 淳 東京工業大学, 大学院総合理工学研究科, 助手 (90376963)
|
Keywords | 重点サンプリング / 進化計算 / 強化学習 / 政策形成 / 大域的最適化 / インスタンスベース政策 / 多目的最適化 / パレート降下法 |
Research Abstract |
(1)ハイブリッドGAによるインスタンスベース政策学習 強化学習における政策を明示的なモデルで表現し、モデルのパラメータを最適化する手法を総称して直接探索という。本研究ではインスタンスの集合で政策を表現し、GAによって最適化する直接探索法を提案した。インスタンスは連続状態・連続行動の対で表される。インスタンスベース政策の最適化には組み合わせ最適化と関数最適化の2つの側面があることに着目し、インスタンス集合を最適化するための2項分布交叉BDX、インスタンスのパラメータを最適化するための突然変異交叉INDX、およびこれらを統合したハイブリッドGAを構成し、SLIPと名付けた。SLIPを並列二重倒立振子振り上げ安定化問題や非ホロノミック系の制御問題を適用し、提案手法の妥当性と有効性を確認した。 (2)多目的関数最適化のためのパレート降下法とその応用 多目的関数最適化問題の解概念であるパレート解は一般に集合をなす。ε制約法などのスカラー化手法では媒介変数を変化させながらパレート解を1つずつ求めるために効率的ではない。一方、集団で解を探索するGAはパレート解集合の近似解集合を一度の探索で求める点で効率的であるが、探索終盤に進化的停滞が生じ、精度において問題がある。本研究では、多目的GAが探索終盤で進化的停滞を生じる原因を解明し、高精度の解を得るためには高性能な局所探索の導入が必要不可欠であることを指摘した。既存の局所探索の特徴と問題点を指摘した後、パレート降下方向の概念を導入し、これに基づくパレート降下法を提案した。多目的GAによる探索の後でパレート降下法を適用するGA then LSの枠組みが推奨されることを性能比較実験により示した。
|
Research Products
(4 results)