強化学習の目的は環境とのインタラクションを通じて平均報酬を最大化する政策を学習することにある。ここで、政策とは状態から行動への写像をいう。強化学習の多くは局所探索に基づいているため複雑な適応度景観をもつ政策に適用した場合局所解に陥る危険性がある。一方、GAは集団で解を探索する多点探索法であることから多峰性の景観を持つ問題に対応できる利点を持つ。しかし、GAによる接近では各個体がそれぞれひとつの政策を表すため環境とのインタラクションが膨大になるという欠点を持つ。 本研究では、過去の経験を有効に利用するために重点サンプリングと呼ばれる統計的手法に着目し、大域的政策を効率よく発見する方法の確立を目指す。平成16年度は重点サンプリングを導入した2つの接近を提案し、その有効性を評価した。 第1の接近として、重点サンプリングを用いてGAの親集団の経験を再利用することにより子個体の政策評価を行う方法を提案した。これにより、環境とのインタラクションを大幅に削減することが期待できる。 第2の接近として、子個体の生成に交叉と政策勾配を用いた局所探索を併用することにより、多峰性へ対応するとともに学習を高速化する方法を提案した。提案したふたつの手法を2分木学習問題に適用して期待通りの挙動を示すことを確認している。
|