Project/Area Number |
12750184
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Dynamics/Control
|
Research Institution | Okayama University |
Principal Investigator |
平嶋 洋一 岡山大学, 工学部, 助手 (20284086)
|
Project Period (FY) |
2000 – 2001
|
Project Status |
Completed (Fiscal Year 2001)
|
Budget Amount *help |
¥1,900,000 (Direct Cost: ¥1,900,000)
Fiscal Year 2001: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2000: ¥1,200,000 (Direct Cost: ¥1,200,000)
|
Keywords | 強化学習 / 非線形制御 / 先験的知識 / MBL system / 汎化作用 / 倒立振子 / 振り上げ制御 / 適応型参照表 |
Research Abstract |
平成13年度は適応型参照表を用いた強化学習による制御系の構成法について理論の整備と実機実験を行った.提案手法を実験装置に適用するための準備として,シミュレータを開発し,提案手法の有効性の検討を行った.また,実験を実施することによって得られたデータを基に,適応型参照表を構成するための条件の見直しと改良を行った.具体的な内容を以下に示す. 1.未知動特性を持つ非線形プラントに対して,強化学習の一実現アルゴリズムであるQ-leaningを利用した制御系を構成した. 2.制御系を構成する際,Q-learningが必要とする参照表を,汎化作用が調節できる非線形関数学習法であるMemory Based Learning system (MBL system)によって構成し,参照表の入力空間が適応的に構成できる手法を開発した. 3.制御系が持つ学習プロセスの高速化を実現するために,従来法では利用できなかった,プラントの先験的情報を強化学習アルゴリズムに取り入れる手法を開発した. 4.提案手法を実験装置に適用するために,倒立振子をプラントとした制御シミュレータを開発し,計算機シミュレーションによって制御系の有効性を検討した. 5.提案手法を倒立振子実験装置に対して適用し,振り上げ安定化制御に関して高速に学習可能であることを実証するとともに,参照表を適応構成する際の各種判定条件について改良を行った. 4.は倒立振子を制御対象として用い,提案手法を適用した場合に,プラントの振り上げ安定化が高速に学習によって実現できることを示した.同様のシミュレータに従来の参照表を用いたQ-learningを適用した場合,提案手法に対して10倍以上の学習時間を必要とした.5.についても従来法の学習時間に対して大幅に改善できることを確認した.また,プラントの先験的情報を利用しない場合には倒立安定化が実現できなかった.以上の結果をもとに,提案手法の有効性について検討を行った.
|
Report
(2 results)
Research Products
(3 results)