2012 Fiscal Year Annual Research Report

非合理な選択行動の特性から学習原理を導く

Research Project

Project/Area Number	21700174
Research Institution	Tamagawa University
Principal Investigator	酒井裕玉川大学, 脳科学研究所, 准教授 (70323376)
Project Period (FY)	2009-04-01 – 2013-03-31
Keywords	学習行動 / マッチング行動 / 衝動的選好
Research Abstract	動物は、生命の危険やエネルギー消費などの負の報酬をなるべく避け、エサや生殖などの正の報酬をより多く得られるように、行動学習を行っており、獲得報酬の最大化として理解することができる。しかし、一見、報酬最大化とは異なるような振舞いを示すことがある。そのような振舞いを非合理行動と呼ぶ。本研究では、動物の非合理行動に着目することで、その背後にある行動学習のメカニズムを探ってきた。本研究課題ではマッチング行動と呼ばれる非合理行動と目先の利益に捉われる衝動的な選好に着目した。マッチング行動は行動選択の履歴に応じて確率的に報酬が与えられるような行動実験課題で観測される。衝動的な選好は、行動選択のタイミングから、報酬が得られるまでの遅延時間が異なるような行動実験課題で観測される。どちらも、客観的には明らかに獲得報酬を最大化できていない状態で、学習が落ち着いてしまう。この異なる状況で観測されている非合理行動が、報酬最大化の方法に由来する共通のメカニズムで再現できることを示した。これまでこの種の行動学習を理論的に扱うのに強化学習理論が用いられてきた。強化学習は、状況に応じた行動選択を学習する枠組みで、現在の状況を表す状態変数の値が外界から明示的に与えられるという枠組みの中で理論化されている。しかし、動物は、現在の状況を得られる膨大な感覚情報の中から把握しなければならず、行動選択に重要な情報が何かを明示的には与えられていないため、必ずしも適切な状況設定をしているとは限らない。このような場合、従来の強化学習理論では想定外のことが発生し、報酬最大化アルゴリズムが最大化に失敗することを指摘すると共に、マッチング行動と衝動的な選好の両者とも、この種の報酬最大化の失敗として再現されることを示した。
Current Status of Research Progress	Reason 24年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	24年度が最終年度であるため、記入しない。

Research Products
(4 results)

All 2012 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results) (of which Invited: 1 results)

[Journal Article] Reinforcing operandum: rapid and reliable learning of skilled forelimb movements by head-fixed rodents2012
- Author(s)
  Kimura R
- Journal Title
  
  Journal of neurophysiology
  
  Volume: 108 Pages: 1781-1792
- DOI
  10.1152/jn.00356.2012
- Peer Reviewed
[Journal Article] Reinforcement learning for discounted values often loses the goal in the application to animal learning2012
- Author(s)
  Yamaguchi Y
- Journal Title
  
  Neural networks
  
  Volume: 35C Pages: 88-91
- DOI
  10.1016/j.neunet.2012.08.004
- Peer Reviewed
[Presentation] A theoretical approach to animal's impulsive preference - Impulsive choice behavior is interpreted as a result of reward-maximization failure
- Author(s)
  Yoshiya Yamaguchi
- Organizer
  SCIS-ISIS2012
- Place of Presentation
  神戸コンベンションセンター（兵庫県）
- Invited
[Presentation] Impulsive preference emerges as a result from reward-maximization failure
- Author(s)
  Yoshiya Yamaguchi
- Organizer
  Neuroscience 2012
- Place of Presentation
  名古屋国際会議場（愛知県）

2012 Fiscal Year Annual Research Report

非合理な選択行動の特性から学習原理を導く

Principal Investigator

酒井 裕 玉川大学, 脳科学研究所, 准教授 (70323376)

Reason

Research Products

[Journal Article] Reinforcing operandum: rapid and reliable learning of skilled forelimb movements by head-fixed rodents2012

Author(s)

Journal Title

DOI

[Journal Article] Reinforcement learning for discounted values often loses the goal in the application to animal learning2012

Author(s)

Journal Title

DOI

[Presentation] A theoretical approach to animal's impulsive preference - Impulsive choice behavior is interpreted as a result of reward-maximization failure

Author(s)

Organizer

Place of Presentation

[Presentation] Impulsive preference emerges as a result from reward-maximization failure

Author(s)

Organizer

Place of Presentation

酒井裕玉川大学, 脳科学研究所, 准教授 (70323376)