2018 Fiscal Year Research-status Report
一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータに対応する強化学習法
Project/Area Number |
18K11424
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 強化学習 / 一次遅れ要素 / むだ時間要素 |
Outline of Annual Research Achievements |
強化学習は、多段階の意思決定問題(行動決定問題) を解くことでシステムを最適に運用する機械学習の有力な枠組みである。強化学習は、これまで、AlphaGo などゲームなどの仮想的な世界で大きな成功を収めてきた。しかし、強化学習を実機に用いようとすると、モータや人工筋肉などのアクチュエータの影響により、制御性能が低下するということを研究代表者は実験的に確認している。この問題に対して、拡張法などの従来手法では、理論的には対処できても、現実的には計算量や必要とする試行錯誤の回数の増加により、学習が困難になってしまうということもわかっている。そこで本研究課題では、一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータが存在する環境で有効に機能する強化学習法の確立を目的として、研究を実施している。本年度はまず、アクチュエータ部分についてのみ予め特性を同定しておき、この特性を事前知識として組み込み、完全ではなくともアクチュエータの影響をなるべく打ち消すような補償器の設計方法について検討を行った。具体的には、補償器のなかでの補償基準の設計方法や、アクチュエータの出力限界を考慮した補償方法の検討を行った。さらに、そのような環境ではセンサの動作にも対応しなければならないことから、本年度は制御器とセンサの動作周波数が異なる場合の対応方法について検討し、一定の成果を得た。これをまとめて、査読付き国際会議論文として発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、補償移の設計方法について、補償基準の設計方法やアクチュエータの出力限界を考慮した補償方法などいくつかの方法を検討した。さらに、一次遅れ要素やむだ時間要素のパラメータを様々設定して数値計算を行い、従来方法や本年度試みた方法のそれぞれについて、各要素のパラメータに対する制御性能の傾向を明らかにした。この傾向は、次年度以降の研究において研究の土台となるものである。
|
Strategy for Future Research Activity |
一次遅れ要素やむだ時間要素のパラメータを様々設定し、それらの組み合わせ事に数値計算を行って方法の妥当性を評価している。現在、この計算に時間がかかり、研究を律速している状況である。並列計算が可能な計算サーバを早期に整備し、この状況を改善する。
|
Causes of Carryover |
計算サーバの仕様策定に時間がかかったため平成30年度中に納品が間に合わず未使用額が生じた。翌年度早々に計算サーバを購入し、数値計算による方法の評価を加速させる。
|