2023 Fiscal Year Annual Research Report

New paradigm reinforcement learning equipped with natural rationality deriving from sociality and reward transformation

Research Project

Project/Area Number	23H03469
Allocation Type	Single-year Grants
Research Institution	Tokyo Denki University
Principal Investigator	高橋達二東京電機大学, 理工学部, 教授 (00514514)
Co-Investigator(Kenkyū-buntansha)	甲野佑東京電機大学, 理工学部, 研究員 (10870313) 太田宏之防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 准教授 (20535190) 浦上大輔日本大学, 生産工学部, 教授 (40458196) 大用庫智関西学院大学, 総合政策学部, 専任講師 (60755685) 玉造晃弘東京電機大学, 理工学部, 研究員 (10876361)
Project Period (FY)	2023-04-01 – 2026-03-31
Keywords	分散表現 / 類推的汎化 / 文脈付きバンディット問題 / 満足化 / 目標志向 / 目標設定理論 / 採餌行動 / ニューラルネットワーク
Outline of Annual Research Achievements	2023年度は、社会性を扱える自然強化学習理論の構築のために、主に二つの研究のラインでの出版を行なった。一つは、我々独自の目標志向の学習アルゴリズムを深層強化学習の枠組みで使えるようにするための基礎研究である。ボトムアップの盲目的な試行錯誤に基づく大域的な最適化に対し、目標を仮に設定してそれをトップダウンに用い、探索を（計算理論でいう判定問題・決定問題にある種転化する）効率化する目標志向の学習は、従来の強化学習との互換性を保ちながら、全く異なる特性と効率性で環境の探索が可能である。しかし連続状態をうまく扱うには課題がある。そこで、文脈付きバンディット問題で環境の構造を線形モデルと仮定し、うまく価値とその信頼性を汎化するアルゴリズムを発表した（「知能と情報」誌）。また、人間や動物が行う効率的な自然強化学習理論の構築のためには、たんなる個体の試行錯誤の汎化だけでなく、過去の経験を現在の新奇な状況に活かす類推的な汎化が必要である。そこで、複数のニューラルネットワーク上で独立成分分析を用いて分散表現同士の対応をつけるアルゴリズムを発表した（Plos One 誌）。その他、我々独自の目標志向の学習アルゴリズムの中心である RS (risk-sensitive satisficing) モデルについて、それが人間の意思決定や学習を質的に予測するかについての実験的研究も進み、国際会議 (AROB2024) で発表した。決定論的に動作するモデルである RS を確率化した SRS (stochastic RS) モデルについても同様に発表した。
Current Status of Research Progress	Current Status of Research Progress 1: Research has progressed more than it was originally planned. Reason 理論、応用、実験、社会学習の4つの項目を申請書以来設定しているが、それぞれについて計画以上の進展があったため。理論については生成AIを用いたゼロショット学習を可能とするモデルの作成を進めている。応用については文脈付きバンディット問題の他、HandyRLライブラリなどを用いて諸々の深層強化学習タスクについて有効性検証を進めている。実験に関してはマウスと人間について大規模な実験を行い、理論の検証と新現象の発掘が進んでいる。社会学習については「個人は楽観的に、集団は悲観的に」という原理の有効性の実装と検証が進んでおり、また社会学習の設定での実際の人間（やマウス）での実験の準備も進んでいる。
Strategy for Future Research Activity	【現在までの進捗状況】ではこれまでの順調な進捗について述べたが、今後、特に2024年度についてはこの延長線上で研究を進め、なるべく早く論文化を行うことで、本研究を成功裡に終わらせるとともに、発展系となる新規プロジェクトの準備も進める。