研究概要 |
(1) 非マルコフ環境問題は部分観測マルコフ決定過程問題(POMDP:Partially Observable Markov Decision Problem)として捉えることができる。本研究では,ある種のPOMDPを解くことができる学習アルゴリズム(ラベリングQ(LQ)-学習という)を新たに開発した。本LQ-学習は既存のMDPのための強化学習にある単純な仕方でメモリを付加する機能(ラベリングという)を組み込んだものである。各時点で,観測値o∈Oが与えられたとき,その観測値にある関数を使ってラベルθ∈Θ={0,1,2,...,M-1}を付ける。この観測値にラベルを結合したo=(o,θ)∈0×Θ=Oをーつの観測値(拡張観測)として定義する。拡張観測/行動対に対するQ-値の更新は従来のMDPのアルゴリズム(たとえば、Q-学習,TD(λ)あるいは学習オートマンなど)で行う。基本的には,ラベルの更新はその観測値が直前の観測値と異なるときにある関数で変更し,そうでないときはその直前の観測のラベルとする。このことで,同じ観測値であってもそのラベルごとに複数のQテーブルができ,隠れマルコフ的状況を部分的に回避できる。 (2) 上記のLQ-学習をPOMDPのテスト問題として知られるGrid worldと呼ぶ簡単な迷路問題(あるスタート点からゴールまでの最短パスを学習によって求める問題)に適用し,各シミュレーションにおいて,ほぼ最短に近いパスを獲得できることを確認した。 (3) 環境の状況あるいは観測は一般に多次元の実ベクトルで表されるが,この状況の無限集合を有限集合にクラス分けすることについて,いくつかの手法について検討を進めた。とくに,リカレント・ニューラル・ネットワーク(RNN)を用いる方法について,その学習法,適切なRNN構造の探索法について基礎となる成果を得た。また,その表現能力を高めるため,RNNの複雑さを制御するアルゴリズムを提案し,それを同定問題に適用して本方法の有効性を確かめた。 (4) 移動ロボットNOMADO(NOMADIC社製)の実験環境を整備し,ナビゲーションなどに関する基礎実験を進めた。
|