2022 Fiscal Year Research-status Report

A study of human perceptual-motor learning process using reward estimation in inverse reinforcement learning

Research Project

Project/Area Number	20K12576
Research Institution	Aoyama Gakuin University
Principal Investigator	薬師神玲子青山学院大学, 教育人間科学部, 教授 (30302441)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	知覚運動学習 / モデル化 / 潜在学習 / 強化学習 / 逆強化学習 / 視線解析
Outline of Annual Research Achievements	日常生活や仕事、スポーツ等で必要な様々な技能を獲得する過程の解明および学習を促進する手段の開発は古くから心理学の一大テーマであり、近年でも潜在学習や状況的学習の概念の下で様々な研究が行われている。この種の学習はその過程を言語化することが難しいため、内的な学習プロセスを検討するにはパフォーマンスの量的測定結果からの推定法が重要となる。この研究では、機械学習およびロボット制御の分野で開発された「逆強化学習」という計算モデルを利用して、学習者がその学習過程で実際に活用した報酬関数を時系列を追って推定し、この報酬関数の変化と、学習の過程で与えられた顕在的知識(アドバイス) や個人の知識の顕在化(テスト)との関係を検討する。これによって、潜在・顕在過程のインターラクションを含んだ知覚―運動学習の量的モデル化に繋げられると期待できる。逆強化学習は、パフォーマンス（参加者が押したキーの系列　等）から、参加者が用いた報酬を推定しようとするものである。現段階までのところ、研究代表者がこれまでの知覚―運動学習の研究で用いてきた知覚マッチング課題をベースとして、報酬の推定を行うための逆強化学習計算モデルの導出を行い、過去の実験における人間のパフォーマンス記録（キー押し系列の記録）に基づく解析を行った。また、解析の精度を高めるために、より詳細に参加者の行動変容を捉えられる自由度の高い入力装置（トラックパッド）用いた、より自然かつ単純な知覚ー運動マッチング状況を模した課題（軌跡学習課題）の作成をした。今後、この課題を用いて、新たな実験データの取得と報酬関数の推定を行う計画である。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason ＣＯＶＩＤ－１９の感染拡大の影響で、研究開始当初は授業オンライン化や他業務等で研究時間の確保が難しく、基礎的技術の蓄積開始とアイトラッカーの導入が遅れた。また、２０２１年度前半まで、十分な人数の実験参加者を募っての対面実験の実施が難しく、実験については、ごく少数の人数の参加者を用いたパイロットスタディを行うに留まった。さらにその後、２０２１年度８月に体調を崩し、２０２１年度後半は休職の上、治療・療養を行うことになった。２０２１年４月より復職し、研究活動を再開したが、治療の影響等で体力の回復に時間がかかっており、体調を見ながらの断続的な活動にならざるを得ず、特に参加者を募っての実験や研究発表は、２０２３年度に持ち越すことになった。
Strategy for Future Research Activity	２０２２年度に作成した、より単純な軌跡予測及び学習課題を用いて、報酬関数の導出とアイトラッキングの関係をデータ化する。基礎的データを収集したのち、学習の過程で与えられた顕在的知識タイプによって報酬関数に現れる変化を解析する。これらを基に、潜在的知識と顕在的知識との関係を検討する。研究発表については、２０２３年度後半に開かれる国際学会での発表と学会誌への投稿を計画している。
Causes of Carryover	２０２１年度途中(８月から)に体調を崩して以降、当初予定していた研究活動、特に、実験と研究発表が実施できていない。そのため、本研究課題は予定では２０２３年３月に終了予定であったが、期間を延長して、２０２３年度に、当初予定していた実験の実施と研究発表を改めて実施する。使用計画の主なものは、実験実施にかかるものとして研究協力者の雇用と参加者への謝礼の支払い、研究発表にかかるものとして旅費及び学会参加費の支払い・論文校閲代、また効率的に研究活動行うために、資料整理を行う研究協力者1名の雇用　である。このほか、データ解析を効率化するためのソフトウェア保守料、逆強化学習関連書籍代（含む文献取り寄せにかかる代金）としても使用する。