研究概要 |
平成12年度は主に適応型参照を用いた強化学習による制御系の構成法について理論の整備を行った.また,提案手法を実験装置に適用するための準備として,シミュレータを開発し,提案手法の有効性の検討を行った.具体的な内容を以下に示す. 1.未知動特性を持つ非線形プラントに対して,強化学習の一実現アルゴリズムであるQ-learningを利用した制御系を構成した. 2.制御系を構成する際,Q-learningが必要とする参照表を,汎化作用が調節できる非線形関数学習法であるMemory Based Learning system (MBL system)によって構成し,参照表の入力空間が適応的に構成できる手法を開発した. 3.制御系が持つ学習プロセスの高速化を実現するために,従来法では利用できなかった,プラントの先験的情報を強化学習アルゴリズムに取り入れる手法を開発した. 4.提案手法を実験装置に適用するために,倒立振子をプラントとした制御シミュレータを開発し,計算機シミュレーションによって制御系の有効性を検討した. 4.では倒立振子を制御対象として用い,提案手法を適用した場合に,プラントの振り上げ安定化が高速に学習によって実現できることを示した.同様のシミュレータに従来の参照表を用いたQ-learningを適用した場合,提案手法に対して10倍以上の学習時間を必要とした.また,プラントの先験的情報を利用しない場合には倒立安定化が実現できなかった.以上の結果をもとに,提案手法の有効性について検討を行った.
|