研究課題/領域番号 |
19K21809
|
研究機関 | 東京大学 |
研究代表者 |
森田 賢治 東京大学, 大学院教育学研究科(教育学部), 准教授 (60446531)
|
研究分担者 |
永瀬 麻子 鳥取大学, 医学部, 特別研究員(PD) (40826658)
|
研究期間 (年度) |
2019-06-28 – 2023-03-31
|
キーワード | 負荷 / 価値学習 |
研究実績の概要 |
強化学習理論の枠組みにおいて負荷をどのように捉え得るかについて、数理モデルを用いて理論的に検討を進めた。負荷のかかる行動であっても、それを選択することで将来的に負荷の総計を上回るような大きな価値・報酬が得られる場合、それを選択するのが合理的な選択になると考えられる。しかし、そうした行動を取りたいと思うか否かは、人によって、また負荷の種類によって異なり得ると考えられる。負荷のかかる行動を取る選択が合理的と考えられる場合にもそうした選択を取らない理由としてどのようなことが考えられるかについて理論的に検討を進めた。最近、人においてある種の目標指向行動が、ある状態を、その状態から遷移していく先の状態への滞在に基づいて表すという状態表現(successor representationと呼ばれる)を用いることで、報酬予測誤差を用いた学習によって達成され得る可能性が提案された。一方、状態表現において、次元削減が成される可能性が、かねてから議論されてきた。それらを踏まえて、報酬の得られるゴール状態への滞在に基づく、次元削減されたsuccessor representationが用いられている可能性を考えた。そして、その場合に、価値の不正確な近似によって、本来は価値が低い筈の、負荷のかかる行動を回避するという選択肢の価値が高く見積もられ、それゆえ負荷の回避(先延ばし)が生じうる可能性を、数理モデルを用いて示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
新型コロナウイルス感染拡大の状況により実験を見合わせてきたため遅れている。
|
今後の研究の推進方策 |
新型コロナウイルスの状況を踏まえて安全が確保できると考えられるならば実験を実施していく。理論モデル・計算論的研究についても引き続き進め、オンライン実験・調査、メタ解析などについても検討を続ける。
|
次年度使用額が生じた理由 |
前述のように実験を見合わせてきたため次年度使用額が生じた。実験(オンライン実験も含む)・調査の謝金、人件費、理論研究に必要なコンピュータ等、研究打ち合わせ、および研究結果の発表に関わる費用などに使用していく予定である。
|