2000 Fiscal Year Annual Research Report
非マルコフ環境における強化学習のメモリ機構の自律的生成に関する研究
Project/Area Number |
11650441
|
Research Institution | Tohoku University |
Principal Investigator |
阿部 健一 東北大学, 大学院・工学研究科, 教授 (70005403)
|
Keywords | 隠れマルコフ環境 / 強化学習 / Q-学習 / ラベリングQ-学習 / 学習オートマトン / スイッチングQ-学習 / 階層型Q-学習 |
Research Abstract |
強化学習(RL:Reinforcement Learning)を部分観測マルコフ(あるいは隠れマルコフ)環境へ適用する場合、環境状態が直接観測できないので、通常のRLに何らかの形でメモリを付加し、過去の観測/行動対の履歴を反映した形でQ値表(Qモジュール)を更新しなければならない。そこで、多数のQモジュールを用いて、それらを環境の状況変化に応じて随時切り替える方法として、ラベリングQ学習(LQ-learning)とスイッチングQ学習(SQ-learning)とを提案し、それらの性能について検討を進めた。 (1)LQ学習は前回の基盤研究(C)(2)で提案し検討しているアルゴリズムである。このアルゴリズムは、観測値に付けるラベルをいつどのような状況(過去の観測系列)で更新するか、ラベルの値をどのように決めるか、の2面において多様な選択肢がある。そこで、LQ学習のより一般的な枠組みを定式化し、その枠組みの中で種々のアルゴリズムを考案し、それらの有効性をシミュレーションにより検証した。 (2)SQ学習は、Qモジュールのスイッチングに階層形学習オートマトンを用いるものである。すなわち、SQ学習では、Qモジュールをある特徴的な観測値(サブゴール)で切り替える。このサブゴールの学習を階層形学習オートマトンによって行うもので、メモリ機構の自律的生成を目指した方法である。このアルゴリズムが、LQ学習に比べより規模の大きい問題例において有効に動作することをシミュレーションにより確認した。 (3)上記は表形式による強化学習であるが、多くの実システムでは観測/行動対は連続値をとる。この場合への対応として、ニューラルネットワークや自己組織化写像(SOM)の応用が考えられる。そのため、これらについて基礎的な検討を進めた。 なお、LQ学習とSQ学習を統一的に取り扱える強化学習機構を構築することが今後の課題である。
|
Research Products
(8 results)
-
[Publications] Masao Sakai: "Comlexity Control Method by Stochastic Analysis for Recurrent Neural Networks"Proc.of Fifth Int.Symp.on Artificial Life and Robotics. 281-284 (2000)
-
[Publications] Haeyon Lee: "Labeling Q-Learning for Partially Observable Markov Decision Process Environments"Proc.of Fifth Int.Symp.on Artificial Life and Robtics. 484-490 (2000)
-
[Publications] K.Sugawara: "Collective Behabior of Multi-agent System with Simple Interaction"Proc.of Fifth Int.Symp.on Artificial Life and Robotics. 725-727 (2000)
-
[Publications] Haeyon Lee: "Labeling Q-learning for Maze Problems with Partially Observable States"Proc.of 15th Korea Automatic Control Conference. Vol.2. 484-487 (2000)
-
[Publications] Masao Sakai: "Complexity Control Method of Chaos Dynamics In Recurrent Neural Networks"Proc.of 15th Korea Automatic Control Conference. Vol.1. 281-284 (2000)
-
[Publications] Hiroyuki Kamaya: "Switching Q-learning in Partially Observable Markovian Environments"Proc.of 2000 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vol.2. 1062-1067 (2000)
-
[Publications] Haeyon Lee: "Labeling Q-Learning In Hidden State Environments"Proc.of Sixth Int.Symp.on Artificial Life and Robtics. Vol.1. 208-211 (2001)
-
[Publications] Masao Sakai: "Chaos Control by a Stochastic Analysis on Recurrent Neural Networks"Proc.of Sixth Int.Symp.on Artificial Life and Robtics. Vol.2. 478-481 (2001)