1.高次レベルの探索と決定論的探索 従来の強化学習では、乱数を用いた確率的行動選択のことを探索と呼び、強化学習における重要なファクターとされてきた。これに対し、人間のように、各モータ単位ではなく、分かれ道のどちらを進むかといった高次のレベルでの探索、さらに、こちらがだめなら次はこちらといった文脈を利用した決定論的な知的探索を、リカレントニューラルネットを用いた強化学習によって獲得できることを示した。さらに、通常のランダム探索では、外力がかかると一様な探索ができないが、強化学習において、状態評価値を微少量ずつ逐次増加させることにより、外力がかかるような状況でも、一様に探索ができ、かつ、環境変化に対しても適応能力があることを、パワー不十分なロボットが重力に逆らって腕を上げるという簡単なタスクで確認した。 2.報酬期待ニューロンの発現理由の解明 サルを使った実験で発見された報酬期待ニューロンが、単一試行タスクからの移行がなく、最初から簡単な設定の複数試行タスクを学習させる場合でも発現することを確認した。これより、学習初期において報酬試行でしか状態評価(critic)が反応しないという非線形性が報酬期待ニューロンの発現理由と考えられる。また、実験におけるスケジュール試行とランダム試行の切り替えの早さを説明するため、ゲートニューロンを導入した。しかし、実験での切り替えと比較してまだまだ遅かった。 3.実用レベルのリカレントニューラルネット学習則 高次機能にはなくてはならないリカレントニューラルネットの、メモリ量、計算時間といった面から実用レベルのリカレントネットの学習アルゴリズムを、簡単な時系列EXOR問題に適用し、BPTT学習法に比べた。そして、学習時間やメモリ量が少なくてすむだけでなく、入力信号間の時間間隔を長くした場合の学習成功率の低下が小さくことが確認できた。
|