• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

強化学習によるロボットの諸機能の自律的、調和的、合目的的獲得と知能形成

研究課題

研究課題/領域番号 15300064
研究機関大分大学

研究代表者

柴田 克成  大分大学, 工学部, 助教授 (10260522)

キーワード強化学習 / 知能創発 / リカレントニューラルネット / 決定論的探索 / 一様探索 / ゲートニューロン / 報酬期待ニューロン / 実用的リカレント学習(PRL)
研究概要

1.高次レベルの探索と決定論的探索
従来の強化学習では、乱数を用いた確率的行動選択のことを探索と呼び、強化学習における重要なファクターとされてきた。これに対し、人間のように、各モータ単位ではなく、分かれ道のどちらを進むかといった高次のレベルでの探索、さらに、こちらがだめなら次はこちらといった文脈を利用した決定論的な知的探索を、リカレントニューラルネットを用いた強化学習によって獲得できることを示した。さらに、通常のランダム探索では、外力がかかると一様な探索ができないが、強化学習において、状態評価値を微少量ずつ逐次増加させることにより、外力がかかるような状況でも、一様に探索ができ、かつ、環境変化に対しても適応能力があることを、パワー不十分なロボットが重力に逆らって腕を上げるという簡単なタスクで確認した。
2.報酬期待ニューロンの発現理由の解明
サルを使った実験で発見された報酬期待ニューロンが、単一試行タスクからの移行がなく、最初から簡単な設定の複数試行タスクを学習させる場合でも発現することを確認した。これより、学習初期において報酬試行でしか状態評価(critic)が反応しないという非線形性が報酬期待ニューロンの発現理由と考えられる。また、実験におけるスケジュール試行とランダム試行の切り替えの早さを説明するため、ゲートニューロンを導入した。しかし、実験での切り替えと比較してまだまだ遅かった。
3.実用レベルのリカレントニューラルネット学習則
高次機能にはなくてはならないリカレントニューラルネットの、メモリ量、計算時間といった面から実用レベルのリカレントネットの学習アルゴリズムを、簡単な時系列EXOR問題に適用し、BPTT学習法に比べた。そして、学習時間やメモリ量が少なくてすむだけでなく、入力信号間の時間間隔を長くした場合の学習成功率の低下が小さくことが確認できた。

  • 研究成果

    (3件)

すべて 2006 2005

すべて 雑誌論文 (3件)

  • [雑誌論文] Acquisition of Deterministic Exploration Behavior by Reinforcement Learning2006

    • 著者名/発表者名
      Katsunari Shibata
    • 雑誌名

      Proc.of the 11th Int'l Symp.on Artificial Life and Robotics CD-ROM

      ページ: OS7-3

  • [雑誌論文] 強化学習による探索行動の学習2005

    • 著者名/発表者名
      柴田克成
    • 雑誌名

      計測自動制御学会システム・情報部門学術講演会2005講演論文集

      ページ: 11-16

    • 説明
      「研究成果報告書概要(和文)」より
  • [雑誌論文] An Explanation of Emergence of Reward Expectancy Neurons Using Reinforcement Learning and Neural Net2005

    • 著者名/発表者名
      Shinya Ishii, Munetaka Shidara, Katsunari Shibata
    • 雑誌名

      Abstract Book of Fourteenth Annual Computational Neuroscience Meeting

      ページ: 43,#41

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi