2021 Fiscal Year Annual Research Report
安全性を保証したヘテロジニアスなマルチロボットシステムの学習制御
Project/Area Number |
21J10780
|
Research Institution | Osaka University |
Principal Investigator |
池本 隼也 大阪大学, 基礎工学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2021-04-28 – 2023-03-31
|
Keywords | 強化学習 / 深層強化学習 / シミュレーション / 時相論理 / Signal Temporal Logic |
Outline of Annual Research Achievements |
2021年度は下記の課題に取り組んだ. 1) シミュレータ上の仮想システムを利用した2段階学習法 システムの大まかなモデルの構造はわかっているが,そのモデルがもつパラメータは未知である場合の深層強化学習法を開発した.シミュレータ内でパラメータの異なる複数の仮想システムに対し,モデルフリーな深層強化学習アルゴリズムによって方策の事前学習をおこない,それらの方策をもとに実システムに対する方策を調整するアルゴリズムを提案した.この手法は,実際にシステムと相互作用する回数を大幅に減らすことができ,学習効率性の向上や安全性の確保につながる.また,モデルフリーな深層強化学習をベースにしているため,高次元な状態表現をもつシステムの制御への応用が期待できる.この研究成果を査読つき国内英文誌に掲載した. 2) Signal Temporal Logic 仕様を満たす方策の学習 時間的な仕様によって安全性を定義する枠組みにおける深層強化学習法を開発した.この枠組みでは,信号時相論理 (Signal Temporal Logic, STL) とよばれる時相論理を用いて制御仕様を記述する.時相論理は時間的な仕様を表現可能な論理体系であり,モデル検証などに用いられる.その中でも特に,STLは連続値信号に対する仕様を扱うことができ,システム制御との親和性が高いことが知られている.このSTL式を満たすための状態表現と報酬関数を設定し,深層強化学習によって方策を学習する手法を提案した.強化学習では目的に合わせて,状態表現や報酬関数を事前に設定する必要があるが,この手法ではSTL式から自動的にこれらを設定することができる.さらに,仕様として与えられるSTL式によっては状態の次元が大きくなる場合があるため,状態の次元圧縮をおこなう前処理法を考案した.この研究について国内学会にて口頭発表をおこなった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
モデルベースな手法のみによる問題解決は困難であると判断し,モデルフリーな手法とモデルベースな手法の利点を組み合わせた新しい学習法の確立に取り組んだ.1) では,シミュレーション内の仮想的なシステムを利用した2段階の学習法を提案し,その成果を国内英文誌に掲載することができた.モデルフリーな学習法の弱点である,学習効率性や安全性の問題解決につながる研究成果となった.また,研究開始当初は,ある状態集合の外にシステムの状態が遷移しないことを安全であることの定義として考えていたが,新たに,時間的な仕様で定義された安全性を考えることにした.2) のように,モデル検証で用いられる時相論理を利用し,時間的な安全性を論理式で記述し,その論理式を満たす方策の学習について研究をおこなった.このような時相論理式を満たす方策の学習に関する先行研究では,古典的な強化学習をベースに考えていることが多く,グリッドワールドと呼ばれる比較的簡単な問題しか解くことができなかった.これに対して,深層強化学習をベースに手法を拡張することで,ダイナミカルシステムの制御へ応用可能であることを示し,この研究内容について,国内学会にて口頭発表をおこなった.時相論理を利用することで,より広いクラスの安全性を考えることが可能となり,当初の研究計画では想定していない研究成果となった.
|
Strategy for Future Research Activity |
現在までの進捗を考慮し,本年度は次の2つの課題に取り組む. 1) STL制約つき深層強化学習法の開発 2) マルチロボットシステム制御への応用 1) では,STL式によって記述された仕様とは別の評価指標を与え,その評価指標を最適化するアルゴリズムの開発に取り組む.例えば,STL式を満たしつつ,移動ロボットを燃料消費最小で制御するような問題を考える.具体的な方針としては,制約つき強化学習でよく用いられる制約つきマルコフ決定過程 (Constrained Markov Decision Process, CMDP) によって定式化をおこない,昨年度得られた成果をもとに,まずはSTL式を満たす方策を事前学習し,その方策をもとに,もう一つの評価指標を最適化するという2段階のアルゴリズムを考える.2) では,これまで得られた研究成果を,高次元な状態表現をもつマルチロボットシステムの制御へ応用する.マルチロボットの制御においては,複数の制御対象を同時に扱う必要が出てくるため,制御仕様を満たす経験や高い報酬が得られる成功経験を得ること自体が難しいことが想定される.この問題に対して,システムをサブシステムに分けて階層化し学習をおこなうアルゴリズムの開発を考えている.
|
Research Products
(2 results)