2020 Fiscal Year Annual Research Report
Reinforcement learning method for environment with actuators that can be modeled with first-order lag elements or dead time elements
Project/Area Number |
18K11424
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 強化学習 / 一次遅れ要素 / むだ時間要素 |
Outline of Annual Research Achievements |
強化学習は、多段階の意思決定問題(行動決定問題) を解くことでシステムを最適に運用する機械学習の有力な枠組みである。強化学習は、これまで、AlphaGo などゲームなどの仮想的な世界で大きな成功を収めてきた。しかし、強化学習を実機に用いようとすると、モータや人工筋肉などのアクチュエータの影響により、制御性能が低下するということを研究代表者は実験的に確認している。この問題に対して、拡張法などの従来手法では、理論的には対処できても、現実的には計算量や必要とする試行錯誤の回数の増加により、学習が困難になってしまうということもわかっている。そこで本研究課題では、一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータが存在する環境で有効に機能する強化学習法の確立を目的として、研究を実施している。これまでに、遅れを補償する補償器を行動の出力側に設置することで、遅れによる影響を低減する手法の検討を行ってきた。3年目となる2020年度では、さまざまな観点から2リンクマニピュレータを題材にした数値実験を行った。一次遅れ要素やむだ時間要素を含む対象に対する手法の適用により、影響をおおむね低減できるを確認した。また、制御性能の向上を確認したところ、むだ時間要素を含む対象に対しては、手法の適用で性能が向上していた。一次遅れ要素を含む対象に対しては、時定数が小さい場合には手法の適用によって性能が向上することを確認した。これらの成果をまとめて雑誌論文への投稿を行った。さらに、実ロボットが複数の床を移動する場合などに、一次遅れ要素やむだ時間要素の定数が変化することを想定した取り組みを行い、雑誌論文へ投稿し、採択された。
|