2019 Fiscal Year Research-status Report
一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータに対応する強化学習法
Project/Area Number |
18K11424
|
Research Institution | University of Tsukuba |
Principal Investigator |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 強化学習 / 一次遅れ要素 / むだ時間要素 |
Outline of Annual Research Achievements |
強化学習は、多段階の意思決定問題(行動決定問題) を解くことでシステムを最適に運用する機械学習の有力な枠組みである。強化学習は、これまで、AlphaGo などゲームなどの仮想的な世界で大きな成功を収めてきた。しかし、強化学習を実機に用いようとすると、モータや人工筋肉などのアクチュエータの影響により、制御性能が低下するということを研究代表者は実験的に確認している。この問題に対して、拡張法などの従来手法では、理論的には対処できても、現実的には計算量や必要とする試行錯誤の回数の増加により、学習が困難になってしまうということもわかっている。そこで本研究課題では、一次遅れ要素やむだ時間要素でモデル化可能なアクチュエータが存在する環境で有効に機能する強化学習法の確立を目的として、研究を実施している。2年目となる2019年度では、まず理論的な面での整備を行い、提案手法の整理を行った。このなかで、本研究で検討している手法がむだ時間要素のみを含む場合を対象とした従来研究である Schuitema らの手法を行動の時間積分を一定に保つという意味での一般化になっていることを示した。また、環境について事前に分かっている情報の種類(具体的には局所的な環境のモデルに関する情報)に応じて用いるべき方法を体系的に整理した。さらに研究を効率的に推進するため並列計算が可能な計算サーバの仕様を策定して発注し、研究に利用できるよう環境を整備した。この計算サーバを利用して数値実験を重ねて評価を行い、雑誌論文への投稿準備を進めた。報告現在で、投稿中である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
手法の理論的な裏付けについて整理・確認し、多数の数値実験を実施して評価を行った。本研究が目指す手法の確立に至るために必要不可欠なステップを着実に実施することができた。
|
Strategy for Future Research Activity |
文献調査を行って本研究の技術を適用可能なタスクの候補をリストし、優先順位をつけて適用し、課題を抽出する。
|
Causes of Carryover |
新型コロナウイルス感染症の影響で年度内の物品調達が難しくなり、繰越すこととした。
|