安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御

Research Project

Project/Area Number	21J10780
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	国内
Review Section	Basic Section 60020:Mathematical informatics-related
Research Institution	Osaka University
Principal Investigator	池本隼也大阪大学, 基礎工学研究科, 特別研究員(DC2)
Project Period (FY)	2021-04-28 – 2023-03-31
Project Status	Completed (Fiscal Year 2022)
Budget Amount *help	¥1,700,000 (Direct Cost: ¥1,700,000) Fiscal Year 2022: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 2021: ¥900,000 (Direct Cost: ¥900,000)
Keywords	深層強化学習 / 時相論理 / 制約付きマルコフ決定過程 / 強化学習 / シミュレーション / Signal Temporal Logic
Outline of Research at the Start	機械学習の発達に伴い，強化学習や深層学習のシステム制御への応用が注目されている．強化学習では，制御器がシステムと相互作用することによって，最適な制御方策を自動で学習することができる．その一方で，一般的な強化学習では安全性が考慮されていないため，システム制御への応用は制限されている．現実のシステムでは，相互作用する間に印加される制御入力によってシステムを破壊してしまう可能性があり，強化学習を直接応用することは難しい．そこで，本研究では，安全性を保証した学習制御法の確立を目指す．さらに，その学習制御法を，性質の異なる複数のシステムを同時に扱う「ヘテロジニアスなマルチロボットシステム」へ応用する．
Outline of Annual Research Achievements	信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった．主に下記の2つの課題に取り組んだ． 1) ネットワーク化制御への応用遠隔に制御対象を制御するネットワーク化制御では，制御対象と制御器との間のデータ転送に遅延が生じる．本研究では，遅延の影響を考慮した上で，STL仕様を満たす方策を学習する手法を考案した．一般に，時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが，加えて，遅延を学習主体が考慮できるよう，過去の制御入力列も環境の状態の一部として利用する手法を考案し，シミュレーションによってその有効性を確認した．この研究成果を査読つき国際会議にて発表した． 2) STL制約つき深層強化学習の開発本研究では，燃料消費量などのSTL仕様とは別の制御指標を定義し，STL仕様を満たすという制約の下で，制御指標に関して方策の最適化をおこなうアルゴリズムを考案した．制約付き最適制御問題を，制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し，このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した．ただ，学習初期の段階では，制約と制御指標の両立が難しかったため，まずはSTL仕様を満たす方策を事前学習し，その方策をもとに，制御指標に関して方策を最適化するアルゴリズムを提案し，その有効性をシミュレーションによって確認した．この研究成果は査読付き英文誌に掲載された．最終的にはマルチロボットシステムへの応用までは遂行できなかったが，時相論理を用いることで，より広いクラスの安全性を考えることが可能となった点から，当初の研究計画では想定していない進展があったと評価する．
Research Progress Status	令和4年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	令和4年度が最終年度であるため、記入しない。

Report

(2 results)

2022 Annual Research Report
2021 Annual Research Report

Research Products
(4 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Deep Reinforcement Learning Under Signal Temporal Logic Constraints Using Lagrangian Relaxation2022
- Author(s)
  Junya Ikemoto and Toshimitsu Ushio
- Journal Title
  
  IEEE Access
  
  Volume: 10 Pages: 114814-114828
- DOI
  10.1109/access.2022.3218216
- Related Report
  2022 Annual Research Report
- Peer Reviewed / Open Access
[Journal Article] Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems2021
- Author(s)
  Ikemoto Junya、Ushio Toshimitsu
- Journal Title
  
  Nonlinear Theory and Its Applications, IEICE
  
  Volume: 12 Issue: 4 Pages: 738-757
- DOI
  10.1587/nolta.12.738
- NAID
  130008098018
- ISSN
  2185-4106
- Related Report
  2021 Annual Research Report
- Peer Reviewed / Open Access
[Presentation] Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications2022
- Author(s)
  Junya Ikemoto and Toshimitsu Ushio
- Organizer
  2022 IEEE 27th International Conference on Emerging Technologies and Factory Automation (ETFA)
- Related Report
  2022 Annual Research Report
- Int'l Joint Research
[Presentation] 信号時相論理仕様を満たす連続行動方策の深層強化学習2021
- Author(s)
  池本隼也，潮俊光
- Organizer
  電子情報通信学会ソサイエティ大会
- Related Report
  2021 Annual Research Report

安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御

Principal Investigator

池本 隼也 大阪大学, 基礎工学研究科, 特別研究員(DC2)

¥1,700,000 (Direct Cost: ¥1,700,000)

Report

Research Products

[Journal Article] Deep Reinforcement Learning Under Signal Temporal Logic Constraints Using Lagrangian Relaxation2022

Author(s)

Journal Title

DOI

Related Report

[Journal Article] Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems2021

Author(s)

Journal Title

DOI

NAID

ISSN

Related Report

[Presentation] Deep Reinforcement Learning Based Networked Control with Network Delays for Signal Temporal Logic Specifications2022

Author(s)

Organizer

Related Report

[Presentation] 信号時相論理仕様を満たす連続行動方策の深層強化学習2021

Author(s)

Organizer

Related Report

池本隼也大阪大学, 基礎工学研究科, 特別研究員(DC2)