Project/Area Number |
23K28159
|
Project/Area Number (Other) |
23H03469 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
高橋 達二 東京電機大学, 理工学部, 教授 (00514514)
|
Co-Investigator(Kenkyū-buntansha) |
甲野 佑 東京電機大学, 理工学部, 研究員 (10870313)
玉造 晃弘 東京電機大学, 理工学部, 研究員 (10876361)
太田 宏之 防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 准教授 (20535190)
浦上 大輔 日本大学, 生産工学部, 教授 (40458196)
大用 庫智 関西学院大学, 総合政策学部, 講師 (60755685)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥18,720,000 (Direct Cost: ¥14,400,000、Indirect Cost: ¥4,320,000)
Fiscal Year 2025: ¥5,980,000 (Direct Cost: ¥4,600,000、Indirect Cost: ¥1,380,000)
Fiscal Year 2024: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Fiscal Year 2023: ¥6,630,000 (Direct Cost: ¥5,100,000、Indirect Cost: ¥1,530,000)
|
Keywords | 強化学習 / 社会学習 / 満足化 / 限定合理性 / 認知実験 / 分散表現 / 類推的汎化 / 文脈付きバンディット問題 / 目標志向 / 目標設定理論 / 採餌行動 / ニューラルネットワーク / 天然知能 / 計算論的認知科学 / バンディット問題 |
Outline of Research at the Start |
ゲームなどで人間を上回る性能を見せている「人工強化学習」に対し、代表者らは人間や動物の社会性や動機付け、環境の探索方法を組み込んだ「自然強化学習」を提案し発展させる。人工強化学習は単なるスカラー値としての報酬を自己評価に用いるため、学習に無数の致命的な失敗(=死)を要する。大量の個体集合 (並列化や大量のシミュレーション) で解決を図る。他方人間や多くの動物は、「原点」を導入して報酬を変換し、単なる評価ではない弱い教示として活用する。また他個体の学習状況を観察しながら探索し、結果無駄な死も避ける。この理論とモデルを構築し、それを動物や人間の実験で検証するとともに、工学的な応用も実現する。
|
Outline of Annual Research Achievements |
2023年度は、社会性を扱える自然強化学習理論の構築のために、主に二つの研究のラインでの出版を行なった。一つは、我々独自の目標志向の学習アルゴリズムを深層強化学習の枠組みで使えるようにするための基礎研究である。ボトムアップの盲目的な試行錯誤に基づく大域的な最適化に対し、目標を仮に設定してそれをトップダウンに用い、探索を(計算理論でいう判定問題・決定問題にある種転化する)効率化する目標志向の学習は、従来の強化学習との互換性を保ちながら、全く異なる特性と効率性で環境の探索が可能である。しかし連続状態をうまく扱うには課題がある。そこで、文脈付きバンディット問題で環境の構造を線形モデルと仮定し、うまく価値とその信頼性を汎化するアルゴリズムを発表した(「知能と情報」誌)。 また、人間や動物が行う効率的な自然強化学習理論の構築のためには、たんなる個体の試行錯誤の汎化だけでなく、過去の経験を現在の新奇な状況に活かす類推的な汎化が必要である。そこで、複数のニューラルネットワーク上で独立成分分析を用いて分散表現同士の対応をつけるアルゴリズムを発表した(Plos One 誌)。 その他、我々独自の目標志向の学習アルゴリズムの中心である RS (risk-sensitive satisficing) モデルについて、それが人間の意思決定や学習を質的に予測するかについての実験的研究も進み、国際会議 (AROB2024) で発表した。決定論的に動作するモデルである RS を確率化した SRS (stochastic RS) モデルについても同様に発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
理論、応用、実験、社会学習の4つの項目を申請書以来設定しているが、それぞれについて計画以上の進展があったため。理論については生成AIを用いたゼロショット学習を可能とするモデルの作成を進めている。応用については文脈付きバンディット問題の他、HandyRLライブラリなどを用いて諸々の深層強化学習タスクについて有効性検証を進めている。実験に関してはマウスと人間について大規模な実験を行い、理論の検証と新現象の発掘が進んでいる。社会学習については「個人は楽観的に、集団は悲観的に」という原理の有効性の実装と検証が進んでおり、また社会学習の設定での実際の人間(やマウス)での実験の準備も進んでいる。
|
Strategy for Future Research Activity |
【現在までの進捗状況】ではこれまでの順調な進捗について述べたが、今後、特に2024年度についてはこの延長線上で研究を進め、なるべく早く論文化を行うことで、本研究を成功裡に終わらせるとともに、発展系となる新規プロジェクトの準備も進める。
|