強化学習にもとづく有限時間整定とフォーメーション制御への応用

Research Project

Project/Area Number	22KF0201
Project/Area Number (Other)	22F22038 (2022)
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund (2023) Single-year Grants (2022)
Section	外国
Review Section	Basic Section 21040:Control and system engineering-related
Research Institution	Kyoto University
Principal Investigator	加嶋健司京都大学, 情報学研究科, 准教授 (60401551)
Co-Investigator(Kenkyū-buntansha)	WU YANZHI 京都大学, 情報学研究科, 外国人特別研究員
Project Period (FY)	2023-03-08 – 2025-03-31
Project Status	Declined (Fiscal Year 2023)
Budget Amount *help	¥1,500,000 (Direct Cost: ¥1,500,000) Fiscal Year 2024: ¥400,000 (Direct Cost: ¥400,000) Fiscal Year 2023: ¥500,000 (Direct Cost: ¥500,000) Fiscal Year 2022: ¥600,000 (Direct Cost: ¥600,000)
Keywords	強化学習 / 最適化
Outline of Research at the Start	大規模システムに対するデータ駆動型制御系設計理論にとって極めて重要な課題である。これに対して、WU氏のマルチエージェントシステムの制御や強化学習的手法に対する理論保証に関するこれまで成果と、受入研究員が推進する統計的学習融合理論構築や社会システムなどへの応用に関する研究は、互いに相補的であり大きな相乗効果が期待できる。本研究では、こうした融合研究を推進する。
Outline of Annual Research Achievements	研究員のこれまでの研究を拡張する方向性として、受入研究者が分布ロバスト最適化、深層学習、最適輸送の３つを提示し、それぞれの基礎理論を教示しつつ、最新の論文を調査するために４ヶ月を費やした。その結果、分布ロバスト制御を取り入れた強化学習に関する研究に焦点を定め、定式化とその可解性を検討してきた。分布ロバスト最適化（DRO）は、不確実性の下で意思決定を行うという課題に取り組む数理最適化の研究分野である。多くの実用的な場面で、意思決定者は、意思決定に影響を与える不確実性を支配する確率分布に関する不完全な情報や曖昧な情報に直面する。DROは、このような不確実性に強い意思決定を最適化するためのフレームワークを提供する。DROでは、可能性のあるすべての不確実性に対応する確率分布の集合に対して意思決定が頑健であることを保証する。この特徴により、DROはサプライチェーンマネジメント、金融、エネルギー、輸送など、幅広い応用先に適用されてきた。こうした活発な研究は、モーメントベースのアプローチ、曖昧性集合、Wassersteinベースのアプローチなど、いくつかの理論的および計算的アプローチの開発につながった。申請者はこうした研究背景を適切に理解しつつ、ネットワーク化制御、強化学習に関連する形でいくつかの定式化をおこなった。残念ながら、事情により滞在は今年度で終了となったが、共同研究を継続するための問題意識の共有はおこなうことができた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 突然の滞在終了のため具体的な成果は得られていないが、遠隔で共同研究を継続するための基盤を構築することはできた。8.5ヶ月という期間の短さを考慮すると、妥当な進捗であると評価する。
Strategy for Future Research Activity	研究員の帰国後も、引き続き分布ロバスト制御を取り入れた強化学習に関する研究に関する共同研究を継続する。

Report

(1 results)

2022 Annual Research Report