1999 Fiscal Year Annual Research Report
非マルコフ環境における強化学習のメモリ機構の自律的生成に関する研究
Project/Area Number |
11650441
|
Research Institution | Tohoku University |
Principal Investigator |
阿部 健一 東北大学, 大学院・工学研究科, 教授 (70005403)
|
Co-Investigator(Kenkyū-buntansha) |
本間 経康 東北大学, 医療技術短期大学部, 助教授 (30282023)
|
Keywords | 隠れマルコフ環境 / 強化学習 / Q-学習 / 学習オートマトン / ラベリングQ-学習 / 階層型Q-学習 |
Research Abstract |
1)強化学習(RL:Reinforcement Learning)を非マルコフ(あるいは隠れマルコフ)環境へ適用する場合、環境状態が直接観測できないので、通常のRLに何らかの形でメモリを付加し、過去の観測/行動対の履歴を反映した形でQ-値を更新しなければならない。そこで、以前提案したラベリングQ-学習(LQ-learning)について検討を進め、複数のQ-値表を適宜切り換えて使用する方法を新たに提案した。すなわち、ある試行において、与えられたタスクを制限ステップ内に達成できなかった場合には、タスクが達成できた最も最近の試行におけるQ-値表をつぎの試行の初期値とする方法である。このことによって、より効率よく学習が達成できることをシミュレーションによって検証した。一方、複数のQ-値表を階層型学習オートマトンによって切り替える方法(スイッチングQ-学習、あるいは単にSQ-learningと名付ける)を新たに提案し、それをより複雑な隠れマルコフ環境に適用して、その有効性について種々検討した。 LQ-learningにおいてはその学習性能は、基本要素の一つであるラベリング関数の選び方に大きく依存する。この恣意性を進化的方法で最適化することについて検討している。 2)遺伝的プログラミングを用いた時系列予測法について、バックプロパゲーションによる予測モデルの係数最適化を併用する手法を提案し、種々の実データについてその有効性を検討した。また、ニューラルネットワーク(NN)およびSOM(Self-Organizing-Map)NNによるパターン認識についても検討を進めた。これらをRLに組み込んで、より複雑な環境に対応できるRL法を与えることが今後の課題である。 3)複数の異種センサーで複数の夕ーゲットを環視するためのセンサー管理のルール(if-then ルール)を学習オートマトンによって自動的に獲得する方法を提案し、それを空港面管制に適用してその有効性を確認した。これをLQあるいはSQ-学習による方法に拡張することが今後の課題である。
|
Research Products
(9 results)
-
[Publications] Masao Sakai: "Complexity Control Method for Recurrent Neural Networks"1999 IEEE International Conference on SMC. Vol. I. 484-489 (1999)
-
[Publications] 釜谷博行: "隠れマルコフ環境におけるスイッチングQ-学習"計測自動制御学会東北支部35周年記念講演会予稿集. 7-8 (1999)
-
[Publications] Alireza Fatehi: "PLANT IDENTIFICATION BY SOM NEURAL NETWORKS"ECC'99. Time ID:BP-3. Paper ID:F190. (1999)
-
[Publications] Noriyasu Honma: "Auto-Learning by Dynamical Recognition Networks"1999 IEEE International Conference on SMC. Vol.III. 211-216 (1999)
-
[Publications] Alireza Fatehi: "Convergence of SOM Multiple Models Identifier"1999 IEEE International Conference on SMC. Vol.IV. 1074-1077 (1999)
-
[Publications] HaeYeon Lee: "Labeling Q-Learning For Non-Markovian Environments"1999 IEEE International Conference on SMC. Vol.V. 487-491 (1999)
-
[Publications] HaeYeon Lee: "Labeling Q-learning for partially observable markov decision process environments"AROB 5th '00. Vol.2. 281-284 (2000)
-
[Publications] Masao Sakai: "Complexity control method by a stochastic analysis for recurrent neural networks"AROB 5th '00. Vol.1. 484-487 (2000)
-
[Publications] Ikuo Yoshihara: "Extending prediction term of GP-based time series model"AROB 5th '00. Vol.1. 268-271 (2000)