研究実績の概要 |
信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった.主に下記の2つの課題に取り組んだ. 1) ネットワーク化制御への応用 遠隔に制御対象を制御するネットワーク化制御では,制御対象と制御器との間のデータ転送に遅延が生じる.本研究では,遅延の影響を考慮した上で,STL仕様を満たす方策を学習する手法を考案した.一般に,時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが,加えて,遅延を学習主体が考慮できるよう,過去の制御入力列も環境の状態の一部として利用する手法を考案し,シミュレーションによってその有効性を確認した.この研究成果を査読つき国際会議にて発表した. 2) STL制約つき深層強化学習の開発 本研究では,燃料消費量などのSTL仕様とは別の制御指標を定義し,STL仕様を満たすという制約の下で,制御指標に関して方策の最適化をおこなうアルゴリズムを考案した.制約付き最適制御問題を,制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し,このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した.ただ,学習初期の段階では,制約と制御指標の両立が難しかったため,まずはSTL仕様を満たす方策を事前学習し,その方策をもとに,制御指標に関して方策を最適化するアルゴリズムを提案し,その有効性をシミュレーションによって確認した.この研究成果は査読付き英文誌に掲載された. 最終的にはマルチロボットシステムへの応用までは遂行できなかったが,時相論理を用いることで,より広いクラスの安全性を考えることが可能となった点から,当初の研究計画では想定していない進展があったと評価する.
|