研究概要 |
平成20年度は,平成19度に引き続いて,不完全知覚問題を含む環境における強化学習アルゴリズムについての研究を行った。不完全知覚問題は,ノイズやセンサ精度などの制約によって,学習の主体であるエージェントが実際には異なる状態を同じ状態とみなしてしまう問題である。不完全知覚問題が発生した場合,エージェントは適切な動作の獲得が困難になる。 まず,平成19年度検討を行った行動価値の多重化手法を,これまで検討を行ってきた強化学習アルゴリズムとは異なる強化学習アルゴリズムに適用し,評価を行った。行動価値は,ある行動を選択する際の指標である。行動価値の多重化とは,ひとつの行動に複数の行動価値を割り当てる方式である。多重化を行うと,異なる内部参照値に対しても同じ行動を選択できると期待される。実験の結果,不完全知覚問題を含む環境において効率的に多様な行動文脈を学習することが可能であると確認された。さらに,平成20年度は,不完全知覚問題を含む環境において獲得される行動価値の収束値を計算する方法について基礎的な検討を行った。本手法は,行動の選択肢が1つしかないような環境において,簡便な手法によって行動価値の収束値を計算することができる。行動価値を並べたベクトルに対する線形変換として価値の更新を定義し,その固有値から収束値を計算する。この手法が確立されれば,同様の手法によって,複素強化学習における価値である複素行動価値への拡張が期待され,複素強化学習で学習可能な環境のクラスの特定に有用であると期待される。
|