Project/Area Number |
20H04259
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
|
Co-Investigator(Kenkyū-buntansha) |
甲野 佑 東京電機大学, 理工学部, 研究員 (10870313)
玉造 晃弘 東京電機大学, 理工学部, 研究員 (10876361)
太田 宏之 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190)
浦上 大輔 日本大学, 生産工学部, 准教授 (40458196)
大用 庫智 関西学院大学, 総合政策学部, 講師 (60755685)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000)
Fiscal Year 2022: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2021: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2020: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
|
Keywords | 強化学習 / 満足化 / 限定合理性 / 動物実験 / 機械学習 / 社会学習 / 因果推論 / 自然知能 / 天然知能 / 模倣 / バンディット問題 / 深層強化学習 / 採餌行動 / 行動経済学 / 模倣学習 |
Outline of Research at the Start |
囲碁やビデオゲームなどで人間を上回る性能を見せている「人工強化学習」に対して、人間や動物の社会性や動機付け、環境の探索方法を組み込んだ「自然強化学習」を提案する。人工強化学習では、無数の致命的な失敗(=死)なしには学習が行えず、大量の個体集合で解決を図る。他方人間や多くの動物は、他個体の学習状況を観察して自らの内発的・外発的動機付けを調整し、結果、無駄な死も避ける。社会性を組み込んだ高効率な「自然強化学習」の理論とモデルを構築し、それを動物や人間の実験で検証するとともに、工学的な応用も実現する。
|
Outline of Final Research Achievements |
aIn this project, we have formalized the mechanisms and merits of the natural reinforcement learning that humans and animals do. The formalization was done reconsidering the concepts of reward, motivation, task formalization (in terms of theory of computation), and sociality. Theoretically, we succeeded in a unification of bounded rationality, decision-making, and foraging theories from the notion of subjective regret. Some industrial applications were done and a principle of social learning under uncertainty was formulated. We also found that mice adaptively control the (asymmetric) learning rates under uncertainty, according to the environments that they face. It leads to a generalization of our theory.
|
Academic Significance and Societal Importance of the Research Achievements |
人間や動物がどのように不確実な環境において学習しているかについての知見を深めました。これは今後、教育、訓練、社会活動などをどのように行うべきかについて指針を与える可能性があります。また、ChatGPTなどが人間と対話できるようにするために肝要な強化学習技術について、学習の目標を定めれば、それに向かって非常に効率的に学習を行えるようになりました。これは、生成AI、ゲーム技術、ロボット制御などにおいて広範な応用を得る可能性があります。
|