• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 研究成果報告書

限定合理性を備えた深層強化学習理論の展開

研究課題

  • PDF
研究課題/領域番号 17H04696
研究種目

若手研究(A)

配分区分補助金
研究分野 ソフトコンピューティング
研究機関東京電機大学

研究代表者

高橋 達二  東京電機大学, 理工学部, 准教授 (00514514)

研究期間 (年度) 2017-04-01 – 2020-03-31
キーワード限定合理性 / 強化学習 / 満足化 / 社会学習 / 弱教示的学習 / 判定問題 / 仮説検証 / 試行錯誤
研究成果の概要

実世界で活動する人間、動物、ロボットは、知覚の能力・情報処理の速度と容量・行動の効果、の三点それぞれにおいて制約のある状況で、各々のゴールの達成を目指して合理的(限定合理的)に学習・行動を行う。本研究はそれが「最適化」の代替案としての「満足化」という探索・意思決定の方策により可能になっていると仮定し、満足化に新しい実装を与え、工学的に有用なアルゴリズムとして世界で初めて確立するとともに、その性質について数学的に明らかにした。またそのアルゴリズムを、強化学習の分野において様々なタスクに適用し、最も基本的なバンディット問題や、一般的な強化学習タスクにおいてその有効性を示した。

自由記述の分野

認知科学

研究成果の学術的意義や社会的意義

人間や動物の扱う、試行錯誤を伴う自律的な学習のロジックの重要な一端を明らかにした。特に、なぜ人間や動物が競争と「対抗模倣」により効率的なパフォーマンスの向上を見せるのかについて機械論的な説明を与えた。さらに、数学的に効率性を証明するとともに、様々な状況で効率性を示した。また、資本主義や市場の観点から、競争や対抗模倣の効率性と、表裏一体であるその危険性についても論じた。

URL: 

公開日: 2021-02-19  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi