2001 Fiscal Year Annual Research Report
Project/Area Number |
13650480
|
Research Institution | Tohoku University |
Principal Investigator |
阿部 健一 東北大学, 大学院・工学研究科, 教授 (70005403)
|
Co-Investigator(Kenkyū-buntansha) |
田中 明 東北大学, 大学院・工学研究科, 助手 (10323057)
|
Keywords | 強化学習 / 部分観測マルコフ環境 / Q学習 / 階層型Q学習 / 学習オートマトン / スッチングQ学習 / ラベリングQ学習 / リカレントニューラルネットワーク |
Research Abstract |
本研究では、部分観測マルコフ決定過程(POMDP)環境に柔軟に対応できる強化学習について研究を進めている。さきに、ラベリングQ(LQ)学習およびスイッチングQ(SQ)学習の2つのアルゴリズムを提案した。前者は単一のエージェントからなる簡単な構造のアルゴリズムであるが、ある種のPOMDP環境でうまく学習を行うことができる。また、後者は階層型強化学習法(HQ学習)の一種で、多数のQモジュールを階層型学習オートマトンによって切り替えるもので、やや複雑なPOMDP環境に適用可能である。本研究では、この2つの学習アルゴリズムの改良を図るとともに、より複雑な構造のHQ学習の開発を行った。また、これらのアルゴリズムを観測および行動のそれぞれが連続値を取るような、より実際的な問題に適用するために、リカレントニューラルネットワーク(RNN)についても基礎的な考察を進めている。これまでに得られた結果は下記の通りである。 1)ノイズ環境でもその学習性能が保証できるよう、SQ学習の改良を図った。WieringらによるHQ学習とシミュレーション実験よる比較実験では、本アルゴリズムがより良好な学習性能を持つことを確認した。 2)さきの研究で、ラベルの変更を促すためのCHANGEと呼ぶ条件とラベル付けのためのラベリング関数の2つの基本要素を導入し、LQ学習の一般的枠組みを与えた。本研究では、一つの基本要素の組み合わせを変えることでLQ学習の性能の一層の向上を図った。 3)WieringらのHQ学習の拡張として提案されたSunらのSSS法の改良を図り、修正SSS法と呼ぶ新たなアルゴリズムを開発した。このアルゴリズムはSSS法に比べより学習性能に優れ、さらに複雑なPOMDP環境への適用が期待できる。 4)SRNと呼ぶRNNに対し、統計的近似学習法(SAL)と呼ぶ新たな学習法を提案した。SALによって、従来の方法ではその学習がうまく行えない非線形性の強い問題が精度よく学習できることをシミュレーションにより確認した。
|
-
[Publications] N.Honnma: "Stochastic Analysis of Chaos Dynamic in Recurrent Neural Networks"Pro. of IFSA/NAFIPS 2001. 298-303 (2001)
-
[Publications] H.Kamaya: "Hierarchical Self-Segmentation Algorithms for Q-learning in Non-Markovian Environments"2nd International Conference on Software Engineering, Artificial Intelligence, Networking & Parallel / Distributed Computing. 55-62 (2001)
-
[Publications] H.Y.Lee: "Flexible Labeling Mechanism in LQ-learning for Maze Problems"Proc. of the International Conference on Control, Automation and Systems. 5-8 (2001)
-
[Publications] M.Sakai: "Control of Chaos Dynamics in Jordan Recurrent Neural Networks"Proc. of the International Conference on Control, Automation and Systems. 292-295 (2001)
-
[Publications] M.Sakai: "Learning method by a statistical approximation for simultaneous recurrent networks"Proc. of AROB 7^<th> 2002. Vol.1. 16-18 (2002)
-
[Publications] M.Sakai: "Complexity Control Method of Chaos Dynamics in Recurrent Neural Networks"Trans. on Control, Automation and Systems Engineering (ICASE). (In press). (2002)
-
[Publications] 釜谷博行: "部分観測マルコフ環境における階層型強化学習-スイッチングQ-学習の提案"電気学会論文誌C. (印刷中). (2002)