研究概要 |
状態から行動への写像である政策を環境とのインタラクションを通じて獲得する問題では、大域的最適政策をできるだけ高速に獲得することが要請される。本研究では、進化計算の大域的探索能力及び強化学習の政策獲得能力、重点サンプリングによる評価値推定能力を適切に組み合わせることで上記の要請に応えることを目的に研究を行い,当該年度は以下の成果を得た。 ・重点サンプリングによる政策の評価値推定 確率的政策の最適化問題を対象に、実数値GA (Real-coded Genetic Algorithms)に基づく直接探索で課題とされる実評価回数の削減を達成するために、重点サンプリングによる政策評価値の推定法としてPVISを提案した。さらに、局所探索に利用するための製作勾配の推定法としてPGISを提案した提案手法を2分木問題、匍匐ロボットに適用することにより、提案手法の有効性を確認した。 ・政策のインスタンスベース表現とGAによる最適化 決定的政策の最適化問題を対象に、政策のインスタンスベース表現とその最適化のための新しい枠組みを提案した。状態行動対で表されるインスタンス集合を政策のノンパラメトリック表現と捉えGAによる探索の対象とした。探索空間が複雑な景観を有する場合、インスタンス間に強い依存性が生じるために、インスタンスのわずかな変化が政策に大きな変化をもたらすこと、初期値に強く依存する問題点を明らかにした。インスタンス間の依存性を解決するために、直系の概念を取り入れた遺伝操作が必要であるとの考えから、直系にバイアスをかけて子個体を生成する二項分布交叉(BDX)を提案した。さらに、初期値依存性を緩和するために未参照インスタンスを初期化するIterated refreshmentを提案した。これらを世代交代モデルCCMによって統合するアルゴリズムを提案した。提案手法を並列二重倒立振り上げ安定化問題に適用し、その有効性を確認した。 これらの研究成果は学術雑誌論文、国際会議、国内シンポジウム等で公表した。
|