研究課題/領域番号 |
17H04696
|
研究種目 |
若手研究(A)
|
配分区分 | 補助金 |
研究分野 |
ソフトコンピューティング
|
研究機関 | 東京電機大学 |
研究代表者 |
高橋 達二 東京電機大学, 理工学部, 准教授 (00514514)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
研究課題ステータス |
完了 (2019年度)
|
配分額 *注記 |
23,660千円 (直接経費: 18,200千円、間接経費: 5,460千円)
2019年度: 6,630千円 (直接経費: 5,100千円、間接経費: 1,530千円)
2018年度: 6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2017年度: 10,660千円 (直接経費: 8,200千円、間接経費: 2,460千円)
|
キーワード | 限定合理性 / 強化学習 / 満足化 / 社会学習 / 弱教示的学習 / 判定問題 / 仮説検証 / 試行錯誤 / 動機付け / 教示的フィードバック / 評価的フィードバック / 対抗模倣 / 競争 / 満足化原理 / 半教示的フィードバック / メタ情報 / 模倣学習 / エミュレーション / 教示フィードバック / 評価フィードバック / 社会的満足化 / プロスペクト理論 / 社会的学習 / 意志決定 / 因果推論 / 機械学習 |
研究成果の概要 |
実世界で活動する人間、動物、ロボットは、知覚の能力・情報処理の速度と容量・行動の効果、の三点それぞれにおいて制約のある状況で、各々のゴールの達成を目指して合理的(限定合理的)に学習・行動を行う。本研究はそれが「最適化」の代替案としての「満足化」という探索・意思決定の方策により可能になっていると仮定し、満足化に新しい実装を与え、工学的に有用なアルゴリズムとして世界で初めて確立するとともに、その性質について数学的に明らかにした。またそのアルゴリズムを、強化学習の分野において様々なタスクに適用し、最も基本的なバンディット問題や、一般的な強化学習タスクにおいてその有効性を示した。
|
研究成果の学術的意義や社会的意義 |
人間や動物の扱う、試行錯誤を伴う自律的な学習のロジックの重要な一端を明らかにした。特に、なぜ人間や動物が競争と「対抗模倣」により効率的なパフォーマンスの向上を見せるのかについて機械論的な説明を与えた。さらに、数学的に効率性を証明するとともに、様々な状況で効率性を示した。また、資本主義や市場の観点から、競争や対抗模倣の効率性と、表裏一体であるその危険性についても論じた。
|