• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

非合理な選択行動の特性から学習原理を導く

Research Project

Project/Area Number 21700174
Research InstitutionTamagawa University

Principal Investigator

酒井 裕  玉川大学, 脳科学研究所, 准教授 (70323376)

Project Period (FY) 2009-04-01 – 2013-03-31
Keywords学習行動 / マッチング行動 / 衝動的選好
Research Abstract

動物は、生命の危険やエネルギー消費などの負の報酬をなるべく避け、エサや生殖などの正の報酬をより多く得られるように、行動学習を行っており、獲得報酬の最大化として理解することができる。しかし、一見、報酬最大化とは異なるような振舞いを示すことがある。そのような振舞いを非合理行動と呼ぶ。本研究では、動物の非合理行動に着目することで、その背後にある行動学習のメカニズムを探ってきた。
本研究課題ではマッチング行動と呼ばれる非合理行動と目先の利益に捉われる衝動的な選好に着目した。マッチング行動は行動選択の履歴に応じて確率的に報酬が与えられるような行動実験課題で観測される。衝動的な選好は、行動選択のタイミングから、報酬が得られるまでの遅延時間が異なるような行動実験課題で観測される。どちらも、客観的には明らかに獲得報酬を最大化できていない状態で、学習が落ち着いてしまう。この異なる状況で観測されている非合理行動が、報酬最大化の方法に由来する共通のメカニズムで再現できることを示した。
これまでこの種の行動学習を理論的に扱うのに強化学習理論が用いられてきた。強化学習は、状況に応じた行動選択を学習する枠組みで、現在の状況を表す状態変数の値が外界から明示的に与えられるという枠組みの中で理論化されている。しかし、動物は、現在の状況を得られる膨大な感覚情報の中から把握しなければならず、行動選択に重要な情報が何かを明示的には与えられていないため、必ずしも適切な状況設定をしているとは限らない。このような場合、従来の強化学習理論では想定外のことが発生し、報酬最大化アルゴリズムが最大化に失敗することを指摘すると共に、マッチング行動と衝動的な選好の両者とも、この種の報酬最大化の失敗として再現されることを示した。

Current Status of Research Progress
Reason

24年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

24年度が最終年度であるため、記入しない。

  • Research Products

    (4 results)

All 2012 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results) (of which Invited: 1 results)

  • [Journal Article] Reinforcing operandum: rapid and reliable learning of skilled forelimb movements by head-fixed rodents2012

    • Author(s)
      Kimura R
    • Journal Title

      Journal of neurophysiology

      Volume: 108 Pages: 1781-1792

    • DOI

      10.1152/jn.00356.2012

    • Peer Reviewed
  • [Journal Article] Reinforcement learning for discounted values often loses the goal in the application to animal learning2012

    • Author(s)
      Yamaguchi Y
    • Journal Title

      Neural networks

      Volume: 35C Pages: 88-91

    • DOI

      10.1016/j.neunet.2012.08.004

    • Peer Reviewed
  • [Presentation] A theoretical approach to animal's impulsive preference - Impulsive choice behavior is interpreted as a result of reward-maximization failure

    • Author(s)
      Yoshiya Yamaguchi
    • Organizer
      SCIS-ISIS2012
    • Place of Presentation
      神戸コンベンションセンター(兵庫県)
    • Invited
  • [Presentation] Impulsive preference emerges as a result from reward-maximization failure

    • Author(s)
      Yoshiya Yamaguchi
    • Organizer
      Neuroscience 2012
    • Place of Presentation
      名古屋国際会議場(愛知県)

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi