研究概要 |
さきに、ラベリングQ(LQ)学習およびスイッチングQ(SQ)学習の2つのアルゴリズムを提案した。前者は単一のエージェントからなる簡単な構造のアルゴリズムであるが、ある種のPOMDP環境でうまく学習を行うことができる。また、後者は階層型強化学習法(HQ学習)の一種で、多数のQモジュールを階層型学習オートマトンによって切り替えるもので、やや複雑なPOMDP環境に適用可能である。本研究では、この2つの学習アルゴリズムの改良を図るとともに、より複雑なPOMDP環境に適用できるHQ学習の開発を行った。また、これらのアルゴリズムを観測および行動のそれぞれが連続値を取るような、より実際的な問題に適用するために、ニューラルネットワーク(RNN)による関数近似ついても基礎的な考察を準めた。本研究の成果は下記の通りである。 1)ノイズ環境でもその学習性能が保証できるようSQ学習の改良を図った.WieringらによるHQ学習とシミュレーション実験よる比較実験では、本アルゴリズムがより良好な学習性能を持つことを確認した。 2)LQ学習に自己組織化マップ(SOM)を導入し,LQ学習性能の一層の向上を図った。 3)SunらのSSS法の改良を図り、修正SSS法と呼ぶアルゴリズムと適格度トレースの考えを導入したSSS(λ)とを開発した。 4)SSS(λ)を移動ロボットにおけるナビゲーションタスクに応用し、本アルゴリズムの有効性を確認した。ここで、ロボットの外界センサから得られる多次元データをSOMなどの自己組織化アルゴリズムにより自動分類し、それをSSS(λ)の観測値とする方法を新たに考案した。 5)SRNと呼ぶRNNに対し、統計的近似学習法(SAL)と呼ぶ新たな学習法を提案した。SALによって、従来の方法ではその学習がうまく行えない非線形性の強い関数が精度よく近似できることをシミュレーションにより確認した。また,追加学習についても新たなアルゴリズムを提案した。
|