1998 Fiscal Year Annual Research Report

非マルコフ環境における分散学習に関する研究

Research Project

Project/Area Number	09650451
Research Institution	Tohoku University
Principal Investigator	阿部賢一東北大学, 大学院工学研究科, 教授 (70005403)
Co-Investigator(Kenkyū-buntansha)	吉澤誠東北大学, 大学院工学研究科, 助教授 (60166931)
Keywords	隠れマルコフ / 部分観測マルコフ決定過程 / 強化学習 / Q-学習 / ラベリングQ-学習 / 学習オートマトン / ニューラルネットワーク / 分散学習
Research Abstract	(1) 非マルコフ環境問題は部分観測マルコフ決定過程問題(POMDP:Rartialky Observable Markov Decision Problem)としで捉えることができる。本研究では,ある種のBDMDPを解くことができる学習アルゴリズム(ラベリングQ(LQ)-学習という)を新た開発した。本LQ-学習は既存のMDPのための強化学習にある単純な仕方でメモリを付加する機能(ラベリングという)を組み込んだものである。各時点で,観測値o∈Oが与えられたとき,その観測値にある関数を使ってラベルθ∈Θ={0,1,2,...,M-1}を付ける。この観測値にラベルを結合したo^^〜=(o,θ)∈O×Θ=O^^〜を一つの観測値(拡張観測)として定義する。拡張観測/行動対に対するQ-値の更新は従来のMDPのアルゴリズムたとえば,Q-学習,TD(λ)あるいは字習オートマトンなど)で行う。基本的には,ラベルの更新はその観測値が直前の観測値と異なるときにある関数で変更し,そうでないときはその直前の観測のラベルとする。このことで,同じ観測値であってもそのラベルごとに複数のQテーブルができ,隠れマルコフ的状況を部分的に回避できる。 (2) 上記のLQ-学習をPOMDPのテスト問題として知られるGrid worldど呼ぶ簡単な迷路問題(あるスタート点からゴールまでの最短パスを学習によって求める問題)に適用し,各シミュレーションにおいて,ほぼ最短に近いパスを獲得できることを確認した。 (3) 環境の状況あるいは観測は一般に多次元の実ベクトルで表されるがこの状況の無限集合を有限集合にクラス分けすることについて,いくつかの手法について検討を進めた。とくに,リカレント・ニューラル・ネットワーク(RNN)を用いる方法について,その学習法,適切なRNN構造の探索法について基礎となる成果を得た。また,その表現能力を高めるため,RNNの複雑さを制御するアルゴリズムを提案し,それを同定問題に適用して本方法の有効性を確かめた。 (4) 移動ロボットNOMADO(NOMADIC社製)の実験環境を整備し,ナビゲーショシなどに関する基礎実験を進めた。

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] 喜多川健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33・11. 1093-1098 (1997)
[Publications] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)
[Publications] Noriyasu Honma: "Adaptive evolution of holon networks by an autonomous decentralized method" Applied Mathematics and Computation. 91・1. 43-61 (1998)
[Publications] Noriyasu Honma: "Effect of complexity on learning ability of recurrent neural networks" Artificial Life and Robotics. 2・3. 97-101 (1998)
[Publications] 本間経康: "神経回路網ダイナミクスの複雑さの制御法" 計測自動制御学会論文集. 35・1. 138-143 (1999)
[Publications] Fation Sevrani: "On the synthesis of brain-state-in-a-box neural models with application to associative memory" Neural Computation. In press. (1999)

1998 Fiscal Year Annual Research Report

非マルコフ環境における分散学習に関する研究

Principal Investigator

阿部 賢一 東北大学, 大学院工学研究科, 教授 (70005403)

Research Products

[Publications] 喜多川 健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33・11. 1093-1098 (1997)

[Publications] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)

[Publications] Noriyasu Honma: "Adaptive evolution of holon networks by an autonomous decentralized method" Applied Mathematics and Computation. 91・1. 43-61 (1998)

[Publications] Noriyasu Honma: "Effect of complexity on learning ability of recurrent neural networks" Artificial Life and Robotics. 2・3. 97-101 (1998)

[Publications] 本間経康: "神経回路網ダイナミクスの複雑さの制御法" 計測自動制御学会論文集. 35・1. 138-143 (1999)

[Publications] Fation Sevrani: "On the synthesis of brain-state-in-a-box neural models with application to associative memory" Neural Computation. In press. (1999)

阿部賢一東北大学, 大学院工学研究科, 教授 (70005403)

[Publications] 喜多川健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33・11. 1093-1098 (1997)