研究概要 |
学習オートマトンは、未知周囲環境の下での自律的学習を行なう有用な道具として、これまで精力的に理論的研究がなされてきた。そして、様々な応用問題へ適用され、その有効性が多くの人々によって広く認識されるようになってきた。 ここで、未知周囲環境とは、学習オートマトンの出力に対する応答(Reward)が未知確率分布に基づいて与えられると考えられる環境を指しており、応笞が0又は1で与えられる環壌をP-モデル環境・応答が[0,1]区聞内の任意の実数を取りうるような環境をS-モデル環境と呼ぶ。また、応答の確率分布が不変な環境を定常環境と呼び、応答の確率分布が時間と共に変化する環境を非定常環境と呼ぶ。 これまで、学習オートマトンの性能に関して、数多くの理論的研究がなされてきたが、それらの殆どが定常環境を仮定したものであった。 本研究では、S-モデルかつ非定常であると共に、応答が一つではなく複数個存在するような環境(非定常複数教師環境と呼ぶ)の下での階層構造学習オートマトンの性能を考察した。そして、環境の変化に機敏に対応させるため、(オートマトンの出力に対する環境からの応答について)以前に得られた情報よりも最近得られた情報をよりうまく活用するアルゴリズムを提案した。そして、提案アルゴリズムにより、ある条件の下で最適パス確率1で収束することを理論的に証明した。更に、幾つかの計算機シミュレーションを実行することにより、これまでに提案された学習アルゴリズムより性能的に優れていることを確認した。
|