Budget Amount *help |
¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 1996: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
学習エージェントに対する評価として報酬や懲罰などの強化信号を考え,これを頼りに最適な行動を自律的に学習する様式を強化学習と呼ぶ.強化学習については近年,Q-Learningをはじめとして種々の基礎的アルゴリズムが整備されつつある.しかしながら,複雑な行動を学習するには,学習すべき課題の構造を考慮して学習エージェントの構造やアルゴリズムを構成しなければ効果的な学習は期待できない. 本研究では,達成すべきタスクが複数のサブタスクから構成され,なおかつ各サブタスクの実行順序そのものを学習エージェントが報酬として与えられる強化信号を最大化すべく,自律的に決定しなければならない問題を取り上げ,その効率的な学習法を検討した. 具体的には,学習すべきサブタスクに対応するモジュールと,サブタスクの実行順序の評価を行うモジュールからなる学習エージェントの構成法を採用した.そして,このモジュール構造を活かし,各モジュールを効果的に学習するアルゴリズムをQ-Learningの拡張型として開発した. 複数のゴール状態を最も速く巡回することを要求するナビゲーション課題を用いた計算機実験により,提案したアルゴリズムにより,単純なQ-Learningでは学習が困難になる規模の課題においてもこれを効果的に学習できることが示された.
|