2022 年度研究成果報告書

内発的動機付けと社会性の統合による自然強化学習の実現

研究課題

PDF

研究課題/領域番号	20H04259
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分61040:ソフトコンピューティング関連
研究機関	東京電機大学
研究代表者	高橋達二東京電機大学, 理工学部, 教授 (00514514)
研究分担者	甲野佑東京電機大学, 理工学部, 研究員 (10870313) 玉造晃弘東京電機大学, 理工学部, 研究員 (10876361) 太田宏之防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190) 浦上大輔日本大学, 生産工学部, 准教授 (40458196) 大用庫智関西学院大学, 総合政策学部, 講師 (60755685)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	強化学習 / 満足化 / 限定合理性 / 動物実験 / 機械学習
研究成果の概要	本研究では、報酬、動機づけ、計算理論的な問題定式化、そして社会性の観点から、強化学習理論の見直しを行い、人間や動物の扱う「自然強化学習」の長所を強化学習アルゴリズムに採り入れた。成果として、理論的には主観リグレット概念による、限定合理性・意思決定・採餌理論の統合に成功した。産業的な応用も行った他、不確実性の下でのエミュレーション的な社会学習の原理を定式化した。マウスに関しては本研究の理論を一般化しうる興味深い結果を得た。
自由記述の分野	計算論的認知科学
研究成果の学術的意義や社会的意義	人間や動物がどのように不確実な環境において学習しているかについての知見を深めました。これは今後、教育、訓練、社会活動などをどのように行うべきかについて指針を与える可能性があります。また、ChatGPTなどが人間と対話できるようにするために肝要な強化学習技術について、学習の目標を定めれば、それに向かって非常に効率的に学習を行えるようになりました。これは、生成AI、ゲーム技術、ロボット制御などにおいて広範な応用を得る可能性があります。