実世界で活動する人間、動物、ロボットは、知覚の能力・情報処理の速度と容量・行動の効果、の三点それぞれにおいて制約のある状況で、各々のゴールの達成を目指して合理的(限定合理的)に学習・行動を行う。本研究はそれが「最適化」の代替案としての「満足化」という探索・意思決定の方策により可能になっていると仮定し、満足化に新しい実装を与え、工学的に有用なアルゴリズムとして世界で初めて確立するとともに、その性質について数学的に明らかにした。またそのアルゴリズムを、強化学習の分野において様々なタスクに適用し、最も基本的なバンディット問題や、一般的な強化学習タスクにおいてその有効性を示した。
|