研究課題/領域番号 |
21J10780
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分60020:数理情報学関連
|
研究機関 | 大阪大学 |
研究代表者 |
池本 隼也 大阪大学, 基礎工学研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2021-04-28 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
1,700千円 (直接経費: 1,700千円)
2022年度: 800千円 (直接経費: 800千円)
2021年度: 900千円 (直接経費: 900千円)
|
キーワード | 深層強化学習 / 時相論理 / 制約付きマルコフ決定過程 / 強化学習 / シミュレーション / Signal Temporal Logic |
研究開始時の研究の概要 |
機械学習の発達に伴い,強化学習や深層学習のシステム制御への応用が注目されている.強化学習では,制御器がシステムと相互作用することによって,最適な制御方策を自動で学習することができる.その一方で,一般的な強化学習では安全性が考慮されていないため,システム制御への応用は制限されている.現実のシステムでは,相互作用する間に印加される制御入力によってシステムを破壊してしまう可能性があり,強化学習を直接応用することは難しい.そこで,本研究では,安全性を保証した学習制御法の確立を目指す.さらに,その学習制御法を,性質の異なる複数のシステムを同時に扱う「ヘテロジニアスなマルチロボットシステム」へ応用する.
|
研究実績の概要 |
信号時相論理(Signal Temporal Logic, STL)で記述された制御仕様を満たすための深層強化学習に関する研究をおこなった.主に下記の2つの課題に取り組んだ. 1) ネットワーク化制御への応用 遠隔に制御対象を制御するネットワーク化制御では,制御対象と制御器との間のデータ転送に遅延が生じる.本研究では,遅延の影響を考慮した上で,STL仕様を満たす方策を学習する手法を考案した.一般に,時間的な制御仕様を満たすためには過去のシステムの状態列が必要となるが,加えて,遅延を学習主体が考慮できるよう,過去の制御入力列も環境の状態の一部として利用する手法を考案し,シミュレーションによってその有効性を確認した.この研究成果を査読つき国際会議にて発表した. 2) STL制約つき深層強化学習の開発 本研究では,燃料消費量などのSTL仕様とは別の制御指標を定義し,STL仕様を満たすという制約の下で,制御指標に関して方策の最適化をおこなうアルゴリズムを考案した.制約付き最適制御問題を,制約付きマルコフ決定過程(Constrained Markov Decision Process, CMDP)によって定式化し,このCMDPに対してラグランジュ緩和を用いたアルゴリズムによって所望の方策を設計する方法を開発した.ただ,学習初期の段階では,制約と制御指標の両立が難しかったため,まずはSTL仕様を満たす方策を事前学習し,その方策をもとに,制御指標に関して方策を最適化するアルゴリズムを提案し,その有効性をシミュレーションによって確認した.この研究成果は査読付き英文誌に掲載された. 最終的にはマルチロボットシステムへの応用までは遂行できなかったが,時相論理を用いることで,より広いクラスの安全性を考えることが可能となった点から,当初の研究計画では想定していない進展があったと評価する.
|
現在までの達成度 (段落) |
令和4年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和4年度が最終年度であるため、記入しない。
|