• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

複雑な環境における脳の意思決定モデルとロボット制御への応用

研究課題

研究課題/領域番号 18300101
研究機関京都大学

研究代表者

石井 信  京都大学, 情報学研究科, 教授 (90294280)

研究分担者 柴田 智広  奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (40359873)
森 健  京都大学, 情報学研究科, 研究員 (00457144)
キーワード強化学習 / 部分観測 / 前頭前野 / 意思決定 / 計算論的認知心理学 / サンプリング / 多自由度ロボット
研究概要

線形確率システムとして表現できないような複雑な環境における最適意思決定過程を模擬する機械学習モデルを、強化学習に注目して構築し、工学応用、特に多自由度ロボットに対して変動する環境下での自律制御を行った。相手エージェントが存在するなど高度な推論を必要とするタスクを題材として、問題解決に関わる階層的な脳内モデルを構築し,非侵襲脳活動計測器を用いた認知科学実験を実施した。
1.強化学習のアルゴリズム開発:方策勾配法ベースの方策オフ型強化学習法に注目しながら新しい強化学習アルゴリズムを開発した。内部状態を持つ方策を学習することでマルチエージェント部分観測環境下でも適切な自律制御を行うことに成功した(Fujita and Ishii,2007)(Taniguchi,et al.,2007)。また、モジュール競合型アーキテクチャに対する制御の統計的学習法を導出した(Osaga,et al.,2008)。
2.階層的部分観測環境における神経基盤:2人のエージェントからなる部分観測課題における最適意思決定過程の神経基盤を調べるために、fMRIを用いた認知科学実験を行った。強化学習モデルを用いて脳内活動を調べた結果、相手エージェントの推定に前頭前野を中心とする脳内ネットワークが関わることが分かった。また、想定していた階層的意思決定タスクを用いた行動実験において、階層的な不確実性の設定が困難であることが判明し、予想通りに実験を進められないことがわかった。そこで、19年度研究内容に関し計画延長を申請し、20年度に、設定を変更したタスクを用いて行動実験およびfMRI脳活動計測実験を行った。時間領域において階層性があり、被験者が環境フィードバックに基づき現在の規則を同定しながら最適な意思決定を行う必要のあるタスクを設定し、行動実験およびfMRI脳活動計測実験を実施した。その結果、ヒトが階層性をある程度切り分けながら規則推定を行いつつ、適切な意思決定を行うことがわかった。
3.多自由度ロボットの強化学習法による制御:中枢パターン生成器に対する強化学習法をヘビ型ロボットに適用し、アクチュエータの故障などシステムの動的変化に追随できることを示した(Makino et al.,2008)。2足歩行準受動歩行ロボットでは、強化学習の変数にフィードバックに関する特徴量を加えることで、外乱に対してロバストな制御が実現された。

  • 研究成果

    (13件)

すべて 2008 2007

すべて 雑誌論文 (5件) (うち査読あり 5件) 学会発表 (6件) 図書 (1件) 産業財産権 (1件)

  • [雑誌論文] Adaptive control of a looper-like robot based on the CPG-actor-critic method2008

    • 著者名/発表者名
      K. Makino
    • 雑誌名

      Artificial Life and Robotics 12

      ページ: 129-132

    • 査読あり
  • [雑誌論文] A probabilistic modeling of MOSAIC learning2008

    • 著者名/発表者名
      S. Osaga
    • 雑誌名

      Artificial Life and Robotics 12

      ページ: 167-171

    • 査読あり
  • [雑誌論文] Multi-agent reinforcement learning for partially-observable games with sampling-based state estimation2007

    • 著者名/発表者名
      H. Fujita
    • 雑誌名

      Neural Computation 19(11)

      ページ: 3051-3087

    • 査読あり
  • [雑誌論文] Reinforcement learning for a biped robot based on a CPG-actor-critic method2007

    • 著者名/発表者名
      Y. Nakamura
    • 雑誌名

      Neural Networks 20

      ページ: 723-735

    • 査読あり
  • [雑誌論文] Reinforcement learning for cooperative actions in a partially observable multiagent system2007

    • 著者名/発表者名
      Y. Taniguchi
    • 雑誌名

      Artificial Neural Networks -ICANN2007, Lecture Notes in Computer Science 4669

      ページ: I-229-238

    • 査読あり
  • [学会発表] Active sampling based on Gaussian process for reinforcement learning2008

    • 著者名/発表者名
      K. Takeda
    • 学会等名
      Thirteenth International Symposium on Artificial Life and Robotics
    • 発表場所
      Beppu, Japan
    • 年月日
      2008-01-31
  • [学会発表] Continuous internal-state controller for a partially observable linear dynamical system2008

    • 著者名/発表者名
      Y. Taniguchi
    • 学会等名
      Thirteenth International Symposium on Artificial Life and Robotics
    • 発表場所
      Beppu, Japan
    • 年月日
      2008-01-31
  • [学会発表] An effective reinforcement learning with automatic construction of basis functions and sequential approximation2008

    • 著者名/発表者名
      N. Nanjo
    • 学会等名
      Thirteenth International Symposium on Artificial Life and Robotics
    • 発表場所
      Beppu, Japan
    • 年月日
      2008-01-31
  • [学会発表] Adaptive particle allocation for multifocal visual attention based on particle filterinor2008

    • 著者名/発表者名
      N. Yano
    • 学会等名
      Thirteenth International Symposium on Artificial Life and Robotics
    • 発表場所
      Beppu, Japan
    • 年月日
      2008-01-31
  • [学会発表] Convergence analysis of the EM algorithm and joint minimization of freeenergy2007

    • 著者名/発表者名
      S. Maeda
    • 学会等名
      IEEE Machine Learning for Signal Processing Workshop
    • 発表場所
      Thessaloniki, Greece
    • 年月日
      2007-08-27
  • [学会発表] A probabilistic model of MOSAIC2007

    • 著者名/発表者名
      S. Osaga
    • 学会等名
      IEEE Symposium on Foundations of Computational Intelligence
    • 発表場所
      Hawaii, USA
    • 年月日
      2007-04-01
  • [図書] 統計数理は隠された未来をあらわにする, 分担執筆(2章, pp. 33-55)2007

    • 著者名/発表者名
      石井信
    • 総ページ数
      136
    • 出版者
      東京電機大学出版局
  • [産業財産権] 適応型制御器、適応型制御方法および適応型制御プログラム2007

    • 発明者名
      吉本潤一郎, 石井信
    • 権利者名
      独立行政法人科学技術振興機構、国立大学法人奈良先端科学技術大学院大学
    • 産業財産権番号
      特許第3960286号
    • 取得年月日
      2007-05-25

URL: 

公開日: 2010-06-11   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi