近年、強化学習におけるゲームAIとロボティックスや、教師あり学習における分類問題において、モンテカルロ法と木構造を組み合わせた探索手法の有効性が示されている。本研究課題では探索問題固有の知識(例えばルール等)を利用せず、効率的で一般性のある探索手法の開発を目指した。そのために本研究課題では、効率的な探索を行うためのヒューリスティックスとしての満足化価値関数の有効性を、探索問題固有の知識に依存せず探索を行うためにモンテカルロ木探索とその基礎となるバンディット問題のシミュレーションにて検証した。 初年度の平成29年度では、強化学習という分野の中で最も基礎的な問題とみなされているn本腕バンディット問題の解法として満足化価値関数を実装し、その性能を検証した。本研究の満足化価値関数は、これまでのn本腕バンディット問題での価値関数の定式化よりも単純な形式であるが、それは適切な基準の設定がなされれば、従来の手法よりも高い性能を示した。最終年度の平成30年度では、一般化された探索問題におけるモンテカルロ木探索への満足化価値関数を適用し、巨大な探索空間への対処に向けた満足化価値関数の検証を行った。その結果、本手法は適切な基準の設定がなされれば巨大な探索空間でも従来の手法よりも高い性能を示した。また、本手法は探索空間の大きさにその性能が影響されにくいことから複雑または現実の環境でのオンライン学習に効果的な手段であると考えられる。本研究課題では効率的な探索を可能とする価値関数の適用範囲の拡張を可能とした。
|