2010 Fiscal Year Annual Research Report
Project/Area Number |
21700174
|
Research Institution | Tamagawa University |
Principal Investigator |
酒井 裕 玉川大学, 脳科学研究所, 准教授 (70323376)
|
Keywords | 知能機械 / 神経科学 / 強化学習 / 知識獲得 |
Research Abstract |
動物はしばしば報酬最大化するような行動に至らずに,「マッチング則」と呼ばれる行動上の法則を満たすことが知られている.マッチング則とは,各行動を選択した回数の割合がその行動を通して得られた報酬量の割合に一致するという法則であり,これが成り立つ行動をマッチング行動と呼ぶ.マッチング行動は人を含めた様々な種で観測されており,マッチングを示すような共通の学習機構が脳に存在することを示唆している.マッチング行動に至るような学習アルゴリズムは多数提案されており,近年,シナプスの学習則として実現するための一般則も提案されている.しかし,そのような学習機構が存在するとしてもなぜ脳は報酬最大化ではなくマッチングを目指すのか,不明のままであった. 本研究計画では,このような行動が過去の行動や報酬の履歴に応じて行動選択する必要がある課題で観測されており,その適切な情報源に気付いていないまま報酬最大化を目指す学習を行うとマッチング行動に至ることを証明した,また,この理論を確かめる具体的な選択課題の設計を行った.さらにこの枠組みを利用して,これまで客観的に測ることができなかった将来報酬価値の割引率を行動データから客観的に測る手法を開発することを目指し,研究を進めていく過程で,被験者の用いる情報源によっては,割引報酬価値の最大化問題が崩壊することを発見した.そこでまず,従来の枠組の問題点を浮き彫りにして見直しを行い,新たな強化学習の枠組を構築した.
|
Research Products
(4 results)