Natural reinforcement learning integrating intrinsic motivation and sociality
Project/Area Number |
20H04259
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 教授 (00514514)
|
Co-Investigator(Kenkyū-buntansha) |
甲野 佑 東京電機大学, 理工学部, 講師 (10870313)
玉造 晃弘 東京電機大学, 理工学部, 研究員 (10876361)
太田 宏之 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190)
浦上 大輔 日本大学, 生産工学部, 准教授 (40458196)
大用 庫智 関西学院大学, 総合政策学部, 講師 (60755685)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000)
Fiscal Year 2022: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2021: ¥5,200,000 (Direct Cost: ¥4,000,000、Indirect Cost: ¥1,200,000)
Fiscal Year 2020: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
|
Keywords | 強化学習 / 満足化 / 採餌行動 / 社会学習 / 行動経済学 / バンディット問題 / 模倣学習 / 限定合理性 |
Outline of Research at the Start |
囲碁やビデオゲームなどで人間を上回る性能を見せている「人工強化学習」に対して、人間や動物の社会性や動機付け、環境の探索方法を組み込んだ「自然強化学習」を提案する。人工強化学習では、無数の致命的な失敗(=死)なしには学習が行えず、大量の個体集合で解決を図る。他方人間や多くの動物は、他個体の学習状況を観察して自らの内発的・外発的動機付けを調整し、結果、無駄な死も避ける。社会性を組み込んだ高効率な「自然強化学習」の理論とモデルを構築し、それを動物や人間の実験で検証するとともに、工学的な応用も実現する。
|
Outline of Annual Research Achievements |
本研究の実施項目は、大別して (T) 自然強化学習理論の理論的確立 (S) 社会学習の新しいモデリング (A) 応用における有効性の実証 (X) 理論の実験的検証 (人間・マウスなど) である。それぞれ、ジャーナル論文が 5, 1, 1, 2 編ずつ出版された。(T)においては、主観リグレットという概念により、限定合理性理論のモデルである満足化の実装、プロスペクト理論的な現象(リスク態度の反射効果)、合理的な採餌行動などの現象が再現できることが分かり、大きな進展があった。 (S) では、エミュレーション的競争(コンペティションとは異なる)により、分業が自己組織化されることが分かった。(A)の応用に関しては新しくベクトル量子化においても結果が出た。(X)では、マウスに関して、本研究の理論を一般化しうる興味深い結果が得られた。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
「自然強化学習」に関して、計画以上に理論的に大きな進展と社会学習の新しいモデリングが成功した他、共同研究を通じて応用における有効性の実証も行えた。理論の実験的検証についてもマウスについて新しい結果が出、論文は注目を集めている。
|
Strategy for Future Research Activity |
コロナを理由に延期(繰り越し)を行った実験的研究は実施する。他に関しては順調に進展しており、論文出版を中心に行う。
|
Report
(1 results)
Research Products
(9 results)