2012 Fiscal Year Annual Research Report
Project/Area Number |
21700174
|
Research Institution | Tamagawa University |
Principal Investigator |
酒井 裕 玉川大学, 脳科学研究所, 准教授 (70323376)
|
Project Period (FY) |
2009-04-01 – 2013-03-31
|
Keywords | 学習行動 / マッチング行動 / 衝動的選好 |
Research Abstract |
動物は、生命の危険やエネルギー消費などの負の報酬をなるべく避け、エサや生殖などの正の報酬をより多く得られるように、行動学習を行っており、獲得報酬の最大化として理解することができる。しかし、一見、報酬最大化とは異なるような振舞いを示すことがある。そのような振舞いを非合理行動と呼ぶ。本研究では、動物の非合理行動に着目することで、その背後にある行動学習のメカニズムを探ってきた。 本研究課題ではマッチング行動と呼ばれる非合理行動と目先の利益に捉われる衝動的な選好に着目した。マッチング行動は行動選択の履歴に応じて確率的に報酬が与えられるような行動実験課題で観測される。衝動的な選好は、行動選択のタイミングから、報酬が得られるまでの遅延時間が異なるような行動実験課題で観測される。どちらも、客観的には明らかに獲得報酬を最大化できていない状態で、学習が落ち着いてしまう。この異なる状況で観測されている非合理行動が、報酬最大化の方法に由来する共通のメカニズムで再現できることを示した。 これまでこの種の行動学習を理論的に扱うのに強化学習理論が用いられてきた。強化学習は、状況に応じた行動選択を学習する枠組みで、現在の状況を表す状態変数の値が外界から明示的に与えられるという枠組みの中で理論化されている。しかし、動物は、現在の状況を得られる膨大な感覚情報の中から把握しなければならず、行動選択に重要な情報が何かを明示的には与えられていないため、必ずしも適切な状況設定をしているとは限らない。このような場合、従来の強化学習理論では想定外のことが発生し、報酬最大化アルゴリズムが最大化に失敗することを指摘すると共に、マッチング行動と衝動的な選好の両者とも、この種の報酬最大化の失敗として再現されることを示した。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(4 results)