強化学習にもとづく有限時間整定とフォーメーション制御への応用

研究課題

研究課題/領域番号	22KF0201
補助金の研究課題番号	22F22038 (2022)
研究種目	特別研究員奨励費
配分区分	基金 (2023) 補助金 (2022)
応募区分	外国
審査区分	小区分21040:制御およびシステム工学関連
研究機関	京都大学
研究代表者	加嶋健司京都大学, 情報学研究科, 准教授 (60401551)
研究分担者	WU YANZHI 京都大学, 情報学研究科, 外国人特別研究員
研究期間 (年度)	2023-03-08 – 2025-03-31
研究課題ステータス	採択後辞退 (2023年度)
配分額 *注記	1,500千円 (直接経費: 1,500千円) 2024年度: 400千円 (直接経費: 400千円) 2023年度: 500千円 (直接経費: 500千円) 2022年度: 600千円 (直接経費: 600千円)
キーワード	強化学習 / 最適化
研究開始時の研究の概要	大規模システムに対するデータ駆動型制御系設計理論にとって極めて重要な課題である。これに対して、WU氏のマルチエージェントシステムの制御や強化学習的手法に対する理論保証に関するこれまで成果と、受入研究員が推進する統計的学習融合理論構築や社会システムなどへの応用に関する研究は、互いに相補的であり大きな相乗効果が期待できる。本研究では、こうした融合研究を推進する。
研究実績の概要	研究員のこれまでの研究を拡張する方向性として、受入研究者が分布ロバスト最適化、深層学習、最適輸送の３つを提示し、それぞれの基礎理論を教示しつつ、最新の論文を調査するために４ヶ月を費やした。その結果、分布ロバスト制御を取り入れた強化学習に関する研究に焦点を定め、定式化とその可解性を検討してきた。分布ロバスト最適化（DRO）は、不確実性の下で意思決定を行うという課題に取り組む数理最適化の研究分野である。多くの実用的な場面で、意思決定者は、意思決定に影響を与える不確実性を支配する確率分布に関する不完全な情報や曖昧な情報に直面する。DROは、このような不確実性に強い意思決定を最適化するためのフレームワークを提供する。DROでは、可能性のあるすべての不確実性に対応する確率分布の集合に対して意思決定が頑健であることを保証する。この特徴により、DROはサプライチェーンマネジメント、金融、エネルギー、輸送など、幅広い応用先に適用されてきた。こうした活発な研究は、モーメントベースのアプローチ、曖昧性集合、Wassersteinベースのアプローチなど、いくつかの理論的および計算的アプローチの開発につながった。申請者はこうした研究背景を適切に理解しつつ、ネットワーク化制御、強化学習に関連する形でいくつかの定式化をおこなった。残念ながら、事情により滞在は今年度で終了となったが、共同研究を継続するための問題意識の共有はおこなうことができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由突然の滞在終了のため具体的な成果は得られていないが、遠隔で共同研究を継続するための基盤を構築することはできた。8.5ヶ月という期間の短さを考慮すると、妥当な進捗であると評価する。
今後の研究の推進方策	研究員の帰国後も、引き続き分布ロバスト制御を取り入れた強化学習に関する研究に関する共同研究を継続する。

報告書

(1件)

2022 実績報告書