1994 年度実績報告書

実例に基づく強化学習法による適応行動発生に関する基礎研究

研究課題

研究課題/領域番号	06680365
研究機関	創価大学
研究代表者	畝見達夫創価大学, 工学部, 講師 (50151915)
キーワード	強化学習 / 機械学習 / 出力の精密化 / 学習能力の進化
研究概要	強化学習の基本アルゴリズムについて、出力が連続な実数である問題領域において、出力選択肢数を増減させる手法を提案し、コンピュータシミュレーションにより性能を確任した。実例に基づく強化学習法をベースに、参照される頒度の違いにより、より頒繁に参照される出力選択肢の間に新たな選択肢を設定し、選択肢数の数があらかじめ決められた数より多くなったときには、最も参照頒度の小さい選択肢を削除する。これにより、適応的な出力精度の調整が可能となる。倒立振子を用いたコンピュータシミュレーションでは、出力候補を固定とする従来の手法に比べ、計算負荷は増すもののより精密な制御が可能となることが確任された。また強化学習のパラメータを遺伝的アルゴリズムによって最適化するシミュレーション実験を行った。この結果、経験的に人間が設定していた値と同様の値が得られた。ただし、学習率については、徐々に減る傾向となり、理論とは逆になった。さらに、環境変化を行なわず、かつ、個体の評価に学習期間を含めたところ、ボールドウィン効果と思われる現象が観察された。つまり、最初は学習能力が高い個体が発生するが、その後先天的に最適な行動戦略をもった個体にとってかわられる。

研究成果

(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] 矢野喜義、増島康弘、平山宣正、畝見達夫: "強化学習エージェントによる道路交通の秩序の発生" 自律分散システムシンポジウム. 297-300 (1995)
[文献書誌] T.Unemi,et al.: "Evolutionary Differentiation of Learning Abilities-" Proceedings of the Forth Intnl.Conf.on Artificial Life. 331-336 (1994)
[文献書誌] 畝見達夫: "強化学習エージェントの集団行動" マルチエージェントと協調計算. 3. 137-150 (1994)