A study of human perceptual-motor learning process using reward estimation in inverse reinforcement learning

Research Project

Project/Area Number	20K12576
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 90030:Cognitive science-related
Research Institution	Aoyama Gakuin University
Principal Investigator	薬師神玲子青山学院大学, 教育人間科学部, 教授 (30302441)
Project Period (FY)	2020-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000) Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2020: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	知覚運動学習 / モデル化 / 潜在学習 / 強化学習 / 逆強化学習 / 視線解析
Outline of Research at the Start	日常生活やスポーツ等に必要な技能を学習するプロセスの解明、および学習を促進する手段の開発は、心理学の一大テーマである。技能学習のプロセスは全てを言語化することが難しく、内的に生じていることはパフォーマンスから推定する他ない。本研究では、機械学習の分野で開発された逆強化学習を人間の知覚―運動技能学習の解析に用いることによって、報酬関数（何がパフォーマンスの促進に関与しているのか）を推定する。そして、特に知識の顕在化（アドバイスやテスト）に伴う報酬関数の変化を検討することによって、技能獲得に関わる顕在知識・潜在知識の相互作用を明らかにし、知覚－運動技能学習プロセスの量的モデルの開発につなげる。
Outline of Annual Research Achievements	日常生活や仕事、スポーツ等で必要な様々な技能を獲得する過程の解明および学習を促進する手段の開発は古くから心理学の一大テーマであり、近年でも潜在学習や状況的学習の概念の下で様々な研究が行われている。この種の学習はその過程を言語化することが難しいため、内的な学習プロセスを検討するにはパフォーマンスの量的測定結果からの推定法が重要となる。この研究では、機械学習およびロボット制御の分野で開発された「逆強化学習」という計算モデルを利用して、学習者がその学習過程で実際に活用した報酬関数を時系列を追って推定し、この報酬関数の変化と、学習の過程で与えられた顕在的知識(アドバイス) や個人の知識の顕在化(テスト)との関係を検討する。これによって、潜在・顕在過程のインターラクションを含んだ知覚―運動学習の量的モデル化に繋げられると期待できる。現段階までのところの研究では、複数種類の知覚マッチング課題について、サンプルデータを取得した上で逆強化学習計算モデルによる推定成績の違いを比較検討した。それによって、学習の内的過程の違いを反映する実験課題の作成において、重視すべき事項を明確にすることができた。今後、実際に先行知識のない参加者を募り、実験データの取得と報酬関数の推定を行う。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason ＣＯＶＩＤ－１９の感染拡大の影響で、研究開始当初は授業オンライン化や他業務等で研究時間の確保が難しく、基礎的技術の蓄積開始とアイトラッカーの導入が遅れた。また、２０２１年度前半まで、十分な人数の実験参加者を募っての対面実験の実施が難しく、実験については、ごく少数の人数の参加者を用いたパイロットスタディを行うに留まった。さらにその後、２０２１年度８月に体調を崩し、２０２１年度後半は休職の上、治療・療養を行うことになった。２０２２年４月より復職し、研究活動を再開したが、治療の影響等で体力の回復に時間がかかっており、正直なところ、体調を見ながらの断続的な活動にならざるを得ない状況が現在でも続いている。が、少しずつ研究に集中できる時間も増えてきているので、２０２４年度はこれまで実施できなかった、特に新たな参加者を募っての実験や、これまでの研究成果についての発表も可能な見込みである．
Strategy for Future Research Activity	軌跡予測を必要とする知覚マッチング課題の学習をナイーブな学習者に実施してもらい、打点と固視点データから彼らの利用した報酬関数の推定を実施する。なお、実験実施にあたっては、２名の研究協力者を雇用し、スムーズかつ効率的な実験遂行を目指す。研究発表については、２０２４年度後半に開かれる国内学会及び国際学会での発表と、学会誌への投稿を計画している。

Report

(4 results)