2021 年度実績報告書

内発的動機付けと社会性の統合による自然強化学習の実現

研究課題

研究課題/領域番号	20H04259
研究機関	東京電機大学
研究代表者	高橋達二東京電機大学, 理工学部, 教授 (00514514)
研究分担者	甲野佑東京電機大学, 理工学部, 研究員 (10870313) 玉造晃弘東京電機大学, 理工学部, 研究員 (10876361) 太田宏之防衛医科大学校(医学教育部医学科進学課程及び専門課程、動物実験施設、共同利用研究施設、病院並びに防衛, 薬理学, 講師 (20535190) 浦上大輔日本大学, 生産工学部, 准教授 (40458196) 大用庫智関西学院大学, 総合政策学部, 講師 (60755685)
研究期間 (年度)	2020-04-01 – 2023-03-31
キーワード	社会学習 / 強化学習 / 天然知能 / 因果推論 / バンディット問題 / 満足化
研究実績の概要	2021年度の繰越分として、自然強化学習アルゴリズムを、バンディット問題での応用、強化学習全般における検証、深層強化学習に対する全面的な適用の準備、社会学習における新しい協力・競い合いのモデリング、そしてその生物学的・神経科学的基盤の研究を進めた。またそれに加えて、限られた情報や情報処理能力、行動能力の下で世界の因果的モデルを作る因果推論についての研究を行った。これは因果推論能力を持ち環境の構造を自律的に学習できるエージェントの開発に必要である。世界モデルなど、環境構造の表現が喫緊課題となっており、また学習の効率性の観点からも関連性が高い。研究の成果としては、ジャーナル論文3本などがある。社会学習については、その科学的な含意が大きいため、集合知やガブリエル・タルドの社会モデル、ダン・スペルベルの文化進化などの観点からこの結果の意義を広範に示せるよう、準備を進めている。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由コロナ禍のための実験の遅れなどはあったものの、理論的にも、研究発表に関しても、順調に進んでいる。
今後の研究の推進方策	理論的な一般化が進んだので、より多くの分野への適用や応用が可能になることが大いに期待される。そのため、まずは可能な含意を引き出し、またエンジニアリング的に難しい面もあるので、効率的に進める。

研究成果
(3件)

すべて 2022 2021

すべて雑誌論文 (3件) (うち査読あり 3件、オープンアクセス 3件)

[雑誌論文] Softsatisficing: Risk-sensitive softmax action selection2022
- 著者名/発表者名
  Kamiya Takumi、Takahashi Tatsuji
- 雑誌名
  
  Biosystems
  
  巻: 213 ページ: 104633～104633
- DOI
  10.1016/j.biosystems.2022.104633
- 査読あり / オープンアクセス
[雑誌論文] Conveying Intention by Motions With Awareness of Information Asymmetry2022
- 著者名/発表者名
  Fukuchi Yosuke、Osawa Masahiko、Yamakawa Hiroshi、Takahashi Tatsuji、Imai Michita
- 雑誌名
  
  Frontiers in Robotics and AI
  
  巻: 9 ページ: 783863
- DOI
  10.3389/frobt.2022.783863
- 査読あり / オープンアクセス
[雑誌論文] The asymmetric learning rates of murine exploratory behavior in sparse reward environments2021
- 著者名/発表者名
  Ohta Hiroyuki、Satori Kuniaki、Takarada Yu、Arake Masashi、Ishizuka Toshiaki、Morimoto Yuji、Takahashi Tatsuji
- 雑誌名
  
  Neural Networks
  
  巻: 143 ページ: 218～229
- DOI
  10.1016/j.neunet.2021.05.030
- 査読あり / オープンアクセス

2021 年度 実績報告書

内発的動機付けと社会性の統合による自然強化学習の実現

研究代表者

高橋 達二 東京電機大学, 理工学部, 教授 (00514514)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Softsatisficing: Risk-sensitive softmax action selection2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Conveying Intention by Motions With Awareness of Information Asymmetry2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] The asymmetric learning rates of murine exploratory behavior in sparse reward environments2021

著者名/発表者名

雑誌名

DOI

2021 年度実績報告書

高橋達二東京電機大学, 理工学部, 教授 (00514514)