2020 Fiscal Year Research-status Report

A study of human perceptual-motor learning process using reward estimation in inverse reinforcement learning

Research Project

Project/Area Number	20K12576
Research Institution	Aoyama Gakuin University
Principal Investigator	薬師神玲子青山学院大学, 教育人間科学部, 教授 (30302441)
Project Period (FY)	2020-04-01 – 2023-03-31
Keywords	知覚運動学習 / モデル化 / 潜在学習 / 強化学習 / 逆強化学習 / 視線解析
Outline of Annual Research Achievements	日常生活や仕事、スポーツ等で必要な様々な技能を獲得する過程の解明および学習を促進する手段の開発は古くから心理学の一大テーマであり、近年でも潜在学習や状況的学習の概念の下で様々な研究が行われている。この種の学習はその過程を言語化することが難しいため、内的な学習プロセスを検討するにはパフォーマンスの量的測定結果からの推定法が重要となる。この研究では、機械学習およびロボット制御の分野で開発された「逆強化学習」という計算モデルを利用して、学習者がその学習過程で実際に活用した報酬関数を時系列を追って推定し、この報酬関数の変化と、学習の過程で与えられた顕在的知識(アドバイス)や個人の知識の顕在化(テスト)との関係を検討する。これによって、潜在・顕在過程のインターラクションを含んだ知覚―運動学習の量的モデル化に繋げられると期待できる。 2020年度は、研究代表者がこれまでの知覚―運動学習の研究で用いてきた知覚マッチング課題をベースとして、報酬の推定を行うための逆強化学習計算モデルの導出を中心に行った。この課題では、参加者が試行錯誤で画面上の形状とキー操作との間の規則を学んでいくが、規則についてのその時の知識それ自体が、学習に用いられる報酬にも反映すると想定される。逆強化学習は、パフォーマンス、すなわち、参加者が押したキーの系列から、参加者が用いた報酬を推定しようとするものである。本年度は、過去の実験におけるキー押し系列の記録を元に、学習率等のパラメターを様々に変化させて推定される報酬の変化や頑健性について検討した。また、ごく少数の参加者を対象として、同課題遂行中にアイトラッキングを行うパイロットスタティを行い、推定された報酬中で重点の置かれた形状パラメターと画像中の注視点の関係についてのデータ収集を行った。このデータの解析は、現在進行中である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 2020年度はCOVID-19の感染拡大の影響で、特に前半は授業オンライン化への対応等で研究時間の確保が難しく、当初年度前半に予定していた計算モデルの導出技術についての基礎的技術の蓄積開始とアイトラッカーの導入が後期にずれ込んだ。また、同じくCOVID-19の感染拡大の影響で、十分な人数の目的を知らない実験参加者を募っての対面実験の実施が難しく、実験については、ごく少数の人数の参加者を用いたパイロットスタディを行うに留まった。
Strategy for Future Research Activity	今年度も、Covid-19の感染状況が落ち着くまでは、大人数の実験参加者を募る実験遂行が難しいため、少人数のデータを用いて逆強化学習モデルによる報酬関数の推定と、アイトラッカーを用いた推定報酬関数の妥当性の検証を中心に研究を進める。研究内容としては当初予定していたトラックパッドを用いた連続的なパラメター設定が可能な課題の開発とこの課題遂行時の報酬関数の推定を中心に行う。少人数を対象とした実験の利点を生かし、口頭による意識化された知識の報告と導出された報酬関数、及びアイトラッキングとの関係もデータ化する。これらのデータを用いることにより、特に各時系列位置における報酬関数の導出とその変化の記述方法を、より洗練されたものにすることを狙う。 Covid-19の感染状況が落ち着いたのち、十分な人数の目的を知らない実験参加者を募った実験を行い、新しい課題と報酬推定モデルの妥当性を検証する。
Causes of Carryover	2020年度は、予定していた対面実験の縮小と研究会参加のための旅費の支出がなかったため、次年度使用額が発生した。この分はCOVID-19の感染拡大収束後に、当初予定していた規模の対面実験を行う際の参加者及び実験補助者への謝礼として使用する。上記と合わせて、2021年度請求額は、現在遂行中の研究発表のための英文校閲及び学会発表にかかる経費のほか、データ解析を効率化するためのソフトウェア及び保守料ならびに逆強化学習関連書籍代として使用する。このほか、実験参加者への謝礼、解析補助及び資料整理を行う研究協力者１名の雇用を計画している。