• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

複合的目標を扱う強化学習アルゴリズムの開発

Research Project

Project/Area Number 08750522
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field 計測・制御工学
Research InstitutionKyoto University

Principal Investigator

喜多 一  京都大学, 工学研究科, 助手 (20195241)

Project Period (FY) 1996
Project Status Completed (Fiscal Year 1996)
Budget Amount *help
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 1996: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords強化学習 / Q-learning / 複合的タスク / モジュール / ナビゲーション課題
Research Abstract

学習エージェントに対する評価として報酬や懲罰などの強化信号を考え,これを頼りに最適な行動を自律的に学習する様式を強化学習と呼ぶ.強化学習については近年,Q-Learningをはじめとして種々の基礎的アルゴリズムが整備されつつある.しかしながら,複雑な行動を学習するには,学習すべき課題の構造を考慮して学習エージェントの構造やアルゴリズムを構成しなければ効果的な学習は期待できない.
本研究では,達成すべきタスクが複数のサブタスクから構成され,なおかつ各サブタスクの実行順序そのものを学習エージェントが報酬として与えられる強化信号を最大化すべく,自律的に決定しなければならない問題を取り上げ,その効率的な学習法を検討した.
具体的には,学習すべきサブタスクに対応するモジュールと,サブタスクの実行順序の評価を行うモジュールからなる学習エージェントの構成法を採用した.そして,このモジュール構造を活かし,各モジュールを効果的に学習するアルゴリズムをQ-Learningの拡張型として開発した.
複数のゴール状態を最も速く巡回することを要求するナビゲーション課題を用いた計算機実験により,提案したアルゴリズムにより,単純なQ-Learningでは学習が困難になる規模の課題においてもこれを効果的に学習できることが示された.

Report

(1 results)
  • 1996 Annual Research Report

URL: 

Published: 1996-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi