2022 Fiscal Year Annual Research Report
Natural reinforcement learning integrating intrinsic motivation and sociality
Project/Area Number |
20H04259
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 教授 (00514514)
|
Co-Investigator(Kenkyū-buntansha) |
甲野 佑 東京電機大学, 理工学部, 研究員 (10870313)
玉造 晃弘 東京電機大学, 理工学部, 研究員 (10876361)
太田 宏之 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190)
浦上 大輔 日本大学, 生産工学部, 准教授 (40458196)
大用 庫智 関西学院大学, 総合政策学部, 講師 (60755685)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 社会学習 / 因果推論 / 自然知能 / 天然知能 / 強化学習 / 模倣 / バンディット問題 / 深層強化学習 |
Outline of Annual Research Achievements |
最終年度である2022年度は、自然強化学習アルゴリズムを、バンディット問題での応用、強化学習全般における検証、深層強化学習に対する全面的な適用の準備、社会学習における新しい協力・競い合いのモデリング、そしてその生物学的・神経科学的基盤の研究を進めた。 またそれに加えて、限られた情報や情報処理能力、行動能力の下で世界の因果的モデルを作る因果推論についての研究を行った。これは因果推論能力を持ち環境の構造を自律的に学習できるエージェントの開発に必要である。世界モデルなど、環境構造の表現が喫緊課題となっており、また学習の効率性の観点からも関連性が高い。 研究の成果としては、人工知能学会全国大会で8件、日本認知科学会大会で4件、情報処理学会全国大会で2件の発表を行い、情報処理学会では筆頭著者である指導学生が学生奨励賞を1件受賞した。因果推論については BioSystems 誌に論文を出版した。 準備中・投稿中の論文としては、社会学習における論文が1編、神経科学論文が1編、新しい深層強化学習アルゴリズムを目指した工学系論文の1編が(再)投稿準備中である。ニューラルネット上での表現と転移の基礎的な論文が1編投稿中である。 特に社会学習については、その科学的な含意が大きいため、集合知やガブリエル・タルドの社会モデル、ダン・スペルベルの文化進化などの観点からこの結果の意義を広範に示せるよう、準備を進めている。
|
Research Progress Status |
令和4年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和4年度が最終年度であるため、記入しない。
|
Research Products
(14 results)