2002 Fiscal Year Annual Research Report

階層形強化学習機構の自己組織化に関する研究

Research Project

Project/Area Number	13650480
Research Institution	Tohoku University
Principal Investigator	阿部健一東北大学, 大学院・工学研究科, 教授 (70005403)
Co-Investigator(Kenkyū-buntansha)	田中明東北大学, 大学院・工学研究科, 助手 (10323057)
Keywords	強化学習 / 部分観測マルコフ環境 / Q学習 / 段階型Q学習 / 学習オートマトン / スッチングQ学習 / ラベリングQ学習 / ニューラルネットワーク
Research Abstract	本研究では、部分観測マルコフ決定過程(POMDP)環境に柔軟に対応できる強化学習について研究を進めている。さきに、ラベリングQ(LQ)学習およびスイッチングQ(SQ)学習の2つのアルゴリズムを提案した。前者は単一のエージェントからなる簡単な構造のアルゴリズムであるが、ある種のPOMDP環境でうまく学習を行うことができる。また、後者は階層型強化学習法(HQ学習)の一種で、多数のQモジュールを階層型学習オートマトンによって切り替えるもので、やや複雑なPOMDP環境に適用可能である。本研究では、この2つの学習アルゴリズムの改良を図るとともに、より複雑な構造のHQ学習の開発を行った。また、これらのアルゴリズムを観測および行動のそれぞれが連続値を取るような、より実際的な問題に適用するために、リカレントニューラルネットワーク(RNN)についても基礎的な考察を進めている。これまでに得られた結果は下記の通りである。 1)ノイズ環境でもその学習性能が保証できるよう、SQ学習の改良を図った。WieringらによるHQ学習とシミュレーション実験よる比較実験では、本アルゴリズムがより良好な学習性能を持つことを確認した。 2)さきの研究で、ラベルの変更を促すためのCHANGEと呼ぶ条件とラベル付けのためのラベリング関数の2つの基本要素を導入し、LQ学習の一般的枠組みを与えた。本研究では、2つの基本要素の組み合わせを変えることでLQ学習性能の一層の向上を図った。 3)SunらのSSS法の改良を図り、修正SSS法と呼ぶアルゴリズムと適格度トレースの考えを導入したSSS(λ)とを開発した。 4)SSS(λ)を移動ロボットにおけるナビゲーションタスクに応用し、本アルゴリズムの有効性を確認した。ここで、ロボットの外界センサから得られる多次元データをSOMあるいはRCEなどの自己組織化アルゴリズムにより自動分類し、それをSSS(λ)の観測値とする方法を新たに考案した。 5)SRNと呼ぶRNNに対し、統計的近似学習法(SAL)と呼ぶ新たな学習法を提案した。SALによって、従来の方法ではその学習がうまく行えない非線形性の強い問題が精度よく学習できることをシミュレーションにより確認した。

Research Products
(7 results)

All Other

All Publications (7 results)

[Publications] M.Sakai: "Complexity Control Method of Chaos Dynamics in Recurrent Neural Networks"The Institute of Control, Automation and Systems Engineering. Vol.4, No.2. 124-129 (2002)
[Publications] M.Sakai: "A Statistical Approximation Learning Method for Simultaneous Recurrent Networks"Proc. of the 15^<th> IFAC World Congress on Automatic Control. 2491-2496 (2002)
[Publications] 釜谷博行: "部分観測マルコフ環境における階層型強化学習-スイッチングQ-学習の提案"電気学会論文誌C. Vol.122-C, No.7. 1186-1193 (2002)
[Publications] H.Y.Lee: "Labeling Q-Learning in POMDP Environments"IEICE TRANS. on Information and Systems. Vol.E85-D, No.9. 1425-1432 (2002)
[Publications] H.Kamaya: "Self-Segmentation of Sequences Algorithm with Eligibility Traces in POMDPs"Proceeding of the 4^<th> Asian Control Conference (ASCC 2002). 408-413 (2002)
[Publications] H.Y.Lee: "Labeling Q-learning with SOM"Int. Conf.on Control, Automation, and Systems(ICCAS 2002). 105-109 (2002)
[Publications] H.Y.Lee: "Labeling Q-learning with self-organizing map for POMDP environments"Proc. of 8^<th> Int. Symp. on Artificial Life and Robotics(AROB8^<th>). Vol.1. 345-348 (2002)

2002 Fiscal Year Annual Research Report

階層形強化学習機構の自己組織化に関する研究

Principal Investigator

阿部 健一 東北大学, 大学院・工学研究科, 教授 (70005403)

Research Products

[Publications] M.Sakai: "Complexity Control Method of Chaos Dynamics in Recurrent Neural Networks"The Institute of Control, Automation and Systems Engineering. Vol.4, No.2. 124-129 (2002)

[Publications] M.Sakai: "A Statistical Approximation Learning Method for Simultaneous Recurrent Networks"Proc. of the 15^<th> IFAC World Congress on Automatic Control. 2491-2496 (2002)

[Publications] 釜谷博行: "部分観測マルコフ環境における階層型強化学習-スイッチングQ-学習の提案"電気学会論文誌C. Vol.122-C, No.7. 1186-1193 (2002)

[Publications] H.Y.Lee: "Labeling Q-Learning in POMDP Environments"IEICE TRANS. on Information and Systems. Vol.E85-D, No.9. 1425-1432 (2002)

[Publications] H.Kamaya: "Self-Segmentation of Sequences Algorithm with Eligibility Traces in POMDPs"Proceeding of the 4^<th> Asian Control Conference (ASCC 2002). 408-413 (2002)

[Publications] H.Y.Lee: "Labeling Q-learning with SOM"Int. Conf.on Control, Automation, and Systems(ICCAS 2002). 105-109 (2002)

[Publications] H.Y.Lee: "Labeling Q-learning with self-organizing map for POMDP environments"Proc. of 8^<th> Int. Symp. on Artificial Life and Robotics(AROB8^<th>). Vol.1. 345-348 (2002)

阿部健一東北大学, 大学院・工学研究科, 教授 (70005403)