• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

非マルコフ環境における分散学習に関する研究

研究課題

研究課題/領域番号 09650451
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 計測・制御工学
研究機関東北大学

研究代表者

阿部 健一 (阿部 賢一)  東北大学, 大学院・工学研究科, 教授 (70005403)

研究分担者 吉澤 誠  東北大学, 大学院・工学研究科, 助教授 (60166931)
研究期間 (年度) 1997 – 1998
研究課題ステータス 完了 (1998年度)
配分額 *注記
2,500千円 (直接経費: 2,500千円)
1998年度: 600千円 (直接経費: 600千円)
1997年度: 1,900千円 (直接経費: 1,900千円)
キーワード隠れマルコフ / 部分観測マルコフ決定過程 / 強化学習 / Q-学習 / ラベリングQ-学習 / 学習オートマトン / ニューラルネットワーク / 分散学習 / 隠れマルコフモデル
研究概要

(1) 非マルコフ環境問題は部分観測マルコフ決定過程問題(POMDP:Partially Observable Markov Decision Problem)として捉えることができる。本研究では,ある種のPOMDPを解くことができる学習アルゴリズム(ラベリングQ(LQ)-学習という)を新たに開発した。本LQ-学習は既存のMDPのための強化学習にある単純な仕方でメモリを付加する機能(ラベリングという)を組み込んだものである。各時点で,観測値o∈Oが与えられたとき,その観測値にある関数を使ってラベルθ∈Θ={0,1,2,...,M-1}を付ける。この観測値にラベルを結合したo=(o,θ)∈0×Θ=Oをーつの観測値(拡張観測)として定義する。拡張観測/行動対に対するQ-値の更新は従来のMDPのアルゴリズム(たとえば、Q-学習,TD(λ)あるいは学習オートマンなど)で行う。基本的には,ラベルの更新はその観測値が直前の観測値と異なるときにある関数で変更し,そうでないときはその直前の観測のラベルとする。このことで,同じ観測値であってもそのラベルごとに複数のQテーブルができ,隠れマルコフ的状況を部分的に回避できる。
(2) 上記のLQ-学習をPOMDPのテスト問題として知られるGrid worldと呼ぶ簡単な迷路問題(あるスタート点からゴールまでの最短パスを学習によって求める問題)に適用し,各シミュレーションにおいて,ほぼ最短に近いパスを獲得できることを確認した。
(3) 環境の状況あるいは観測は一般に多次元の実ベクトルで表されるが,この状況の無限集合を有限集合にクラス分けすることについて,いくつかの手法について検討を進めた。とくに,リカレント・ニューラル・ネットワーク(RNN)を用いる方法について,その学習法,適切なRNN構造の探索法について基礎となる成果を得た。また,その表現能力を高めるため,RNNの複雑さを制御するアルゴリズムを提案し,それを同定問題に適用して本方法の有効性を確かめた。
(4) 移動ロボットNOMADO(NOMADIC社製)の実験環境を整備し,ナビゲーションなどに関する基礎実験を進めた。

報告書

(3件)
  • 1998 実績報告書   研究成果報告書概要
  • 1997 実績報告書
  • 研究成果

    (22件)

すべて その他

すべて 文献書誌 (22件)

  • [文献書誌] 喜多川 健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33. 1093-1098 (1997)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Noriyasu Honma: "Adaptive evolution of holon networks by an autonomous decentralized method" Applied Mathematics and Computation. 91. 43-61 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Noriyasu Honma: "Effect of complexity on learning ability of recurrent neural networks" Artificial Life and Robotics. 2. 97-101 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] 本間経康: "神経回路網ダイナミクスの複雑さの制御法" 計測自動制御学会論文集. 35. 138-143 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Fation Sevrani: "On the synthesis of brain-state-in-a-box neural models with application to associative memory" Neural Computation. In press. (1999)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Ken Kitagawa: "An Emergent Learning Method for Recurrent Neural Network" Transactions of The Society of Instrument and Control Engineers. Vol.33. 1093-1098 (1997)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Noriyasu Honma: "Adaptive evolution of holon networks by an autonomous decentralized method" Applied Mathematics and Computation. Vol.91. 43-61 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Noriyasu Honma: "Effect of complexity on learning ability of recurrentneural networks" Artificial Life and Robotics. Vol.2. 97-101 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Noriyasu Honma: "Complexity Control Methods of Dynamics in Recurrent Neural Networks" Transactions of The Society of Instrument and Control Engineers. Vol.35. 138-143 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] Fation Sevrani: "On the synthesis of brain-state-in-a-box neural models with application to associative" Neural Computation. (in press).

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      1998 研究成果報告書概要
  • [文献書誌] 喜多川 健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33・11. 1093-1098 (1997)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Noriyasu Honma: "Adaptive evolution of holon networks by an autonomous decentralized method" Applied Mathematics and Computation. 91・1. 43-61 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Noriyasu Honma: "Effect of complexity on learning ability of recurrent neural networks" Artificial Life and Robotics. 2・3. 97-101 (1998)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] 本間経康: "神経回路網ダイナミクスの複雑さの制御法" 計測自動制御学会論文集. 35・1. 138-143 (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Fation Sevrani: "On the synthesis of brain-state-in-a-box neural models with application to associative memory" Neural Computation. In press. (1999)

    • 関連する報告書
      1998 実績報告書
  • [文献書誌] Zhao Feng-ji: "A Mobile Robot Localization Using Ultrasonic Sensors in Indoor Environment" Proc.of International Workshop on Robot and Human Communication. 52-57 (1997)

    • 関連する報告書
      1997 実績報告書
  • [文献書誌] N.Honma: "An Autonomous Criterion of Learning Methods for Recurrent Neural Networks" Proc.of the 2nd Asian Control Conference. II. 219-222 (1997)

    • 関連する報告書
      1997 実績報告書
  • [文献書誌] 喜多川 健: "リカレントニューラルネットワークの創発的学習手法" 計測自動制御学会論文集. 33巻11号. 1093-1098 (1997)

    • 関連する報告書
      1997 実績報告書
  • [文献書誌] N.Honma: "A learning method for large-scale recurrent neural networks" Proc.of The 3rd International Symposium on ARTIFICIAI LIFE AND ROBOTICS. 358-361 (1998)

    • 関連する報告書
      1997 実績報告書

URL: 

公開日: 1997-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi