強化学習の基本アルゴリズムについて、出力が連続な実数である問題領域において、出力選択肢数を増減させる手法を提案し、コンピュータシミュレーションにより性能を確任した。実例に基づく強化学習法をベースに、参照される頒度の違いにより、より頒繁に参照される出力選択肢の間に新たな選択肢を設定し、選択肢数の数があらかじめ決められた数より多くなったときには、最も参照頒度の小さい選択肢を削除する。これにより、適応的な出力精度の調整が可能となる。倒立振子を用いたコンピュータシミュレーションでは、出力候補を固定とする従来の手法に比べ、計算負荷は増すもののより精密な制御が可能となることが確任された。 また強化学習のパラメータを遺伝的アルゴリズムによって最適化するシミュレーション実験を行った。この結果、経験的に人間が設定していた値と同様の値が得られた。ただし、学習率については、徐々に減る傾向となり、理論とは逆になった。さらに、環境変化を行なわず、かつ、個体の評価に学習期間を含めたところ、ボールドウィン効果と思われる現象が観察された。つまり、最初は学習能力が高い個体が発生するが、その後先天的に最適な行動戦略をもった個体にとってかわられる。
|