社会性と報酬変換がもたらす自然合理性による新しい強化学習パラダイム

研究課題

研究課題/領域番号	23K28159
補助金の研究課題番号	23H03469 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分61040:ソフトコンピューティング関連
研究機関	東京電機大学
研究代表者	高橋達二東京電機大学, 理工学部, 教授 (00514514)
研究分担者	甲野佑東京電機大学, 理工学部, 研究員 (10870313) 玉造晃弘東京電機大学, 理工学部, 研究員 (10876361) 太田宏之防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 准教授 (20535190) 浦上大輔日本大学, 生産工学部, 教授 (40458196) 大用庫智関西学院大学, 総合政策学部, 講師 (60755685)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円) 2025年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円) 2024年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円) 2023年度: 6,630千円 (直接経費: 5,100千円、間接経費: 1,530千円)
キーワード	強化学習 / 社会学習 / 満足化 / 限定合理性 / 認知実験 / 分散表現 / 類推的汎化 / 文脈付きバンディット問題 / 目標志向 / 目標設定理論 / 採餌行動 / ニューラルネットワーク / 天然知能 / 計算論的認知科学 / バンディット問題
研究開始時の研究の概要	ゲームなどで人間を上回る性能を見せている「人工強化学習」に対し、代表者らは人間や動物の社会性や動機付け、環境の探索方法を組み込んだ「自然強化学習」を提案し発展させる。人工強化学習は単なるスカラー値としての報酬を自己評価に用いるため、学習に無数の致命的な失敗(=死)を要する。大量の個体集合 (並列化や大量のシミュレーション) で解決を図る。他方人間や多くの動物は、「原点」を導入して報酬を変換し、単なる評価ではない弱い教示として活用する。また他個体の学習状況を観察しながら探索し、結果無駄な死も避ける。この理論とモデルを構築し、それを動物や人間の実験で検証するとともに、工学的な応用も実現する。
研究実績の概要	2023年度は、社会性を扱える自然強化学習理論の構築のために、主に二つの研究のラインでの出版を行なった。一つは、我々独自の目標志向の学習アルゴリズムを深層強化学習の枠組みで使えるようにするための基礎研究である。ボトムアップの盲目的な試行錯誤に基づく大域的な最適化に対し、目標を仮に設定してそれをトップダウンに用い、探索を（計算理論でいう判定問題・決定問題にある種転化する）効率化する目標志向の学習は、従来の強化学習との互換性を保ちながら、全く異なる特性と効率性で環境の探索が可能である。しかし連続状態をうまく扱うには課題がある。そこで、文脈付きバンディット問題で環境の構造を線形モデルと仮定し、うまく価値とその信頼性を汎化するアルゴリズムを発表した（「知能と情報」誌）。また、人間や動物が行う効率的な自然強化学習理論の構築のためには、たんなる個体の試行錯誤の汎化だけでなく、過去の経験を現在の新奇な状況に活かす類推的な汎化が必要である。そこで、複数のニューラルネットワーク上で独立成分分析を用いて分散表現同士の対応をつけるアルゴリズムを発表した（Plos One 誌）。その他、我々独自の目標志向の学習アルゴリズムの中心である RS (risk-sensitive satisficing) モデルについて、それが人間の意思決定や学習を質的に予測するかについての実験的研究も進み、国際会議 (AROB2024) で発表した。決定論的に動作するモデルである RS を確率化した SRS (stochastic RS) モデルについても同様に発表した。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由理論、応用、実験、社会学習の4つの項目を申請書以来設定しているが、それぞれについて計画以上の進展があったため。理論については生成AIを用いたゼロショット学習を可能とするモデルの作成を進めている。応用については文脈付きバンディット問題の他、HandyRLライブラリなどを用いて諸々の深層強化学習タスクについて有効性検証を進めている。実験に関してはマウスと人間について大規模な実験を行い、理論の検証と新現象の発掘が進んでいる。社会学習については「個人は楽観的に、集団は悲観的に」という原理の有効性の実装と検証が進んでおり、また社会学習の設定での実際の人間（やマウス）での実験の準備も進んでいる。
今後の研究の推進方策	【現在までの進捗状況】ではこれまでの順調な進捗について述べたが、今後、特に2024年度についてはこの延長線上で研究を進め、なるべく早く論文化を行うことで、本研究を成功裡に終わらせるとともに、発展系となる新規プロジェクトの準備も進める。

報告書

(1件)

2023 実績報告書

研究成果
(2件)

すべて 2024 2023

すべて雑誌論文 (2件)

[雑誌論文] 文脈的採餌行動における逐次的意思決定モデル2024
- 著者名/発表者名
  TSUBOYA Akane、KONO Yu、TAKAHASHI Tatsuji
- 雑誌名
  
  知能と情報
  
  巻: 36 号: 1 ページ: 589-600
- DOI
  10.3156/jsoft.36.1_589
- ISSN
  1347-7986, 1881-7203
- 年月日
  2024-02-15
- 関連する報告書
  2023 実績報告書
[雑誌論文] Comparing feedforward neural networks using independent component analysis on hidden units2023
- 著者名/発表者名
  Satoh Seiya、Yamagishi Kenta、Takahashi Tatsuji
- 雑誌名
  
  PLOS ONE
  
  巻: 18 号: 8 ページ: e0290435-e0290435
- DOI
  10.1371/journal.pone.0290435
- 関連する報告書
  2023 実績報告書

社会性と報酬変換がもたらす自然合理性による新しい強化学習パラダイム

研究代表者

高橋 達二 東京電機大学, 理工学部, 教授 (00514514)

18,720千円 (直接経費: 14,400千円、間接経費: 4,320千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 文脈的採餌行動における逐次的意思決定モデル2024

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] Comparing feedforward neural networks using independent component analysis on hidden units2023

著者名/発表者名

雑誌名

DOI

関連する報告書

高橋達二東京電機大学, 理工学部, 教授 (00514514)