2022 Fiscal Year Annual Research Report

強化学習にもとづく有限時間整定とフォーメーション制御への応用

Research Project

Project/Area Number	22F22038
Allocation Type	Single-year Grants
Research Institution	Kyoto University
Principal Investigator	加嶋健司京都大学, 情報学研究科, 准教授 (60401551)
Co-Investigator(Kenkyū-buntansha)	WU YANZHI 京都大学, 情報学研究科, 外国人特別研究員
Project Period (FY)	2022-07-27 – 2025-03-31
Keywords	強化学習 / 最適化
Outline of Annual Research Achievements	研究員のこれまでの研究を拡張する方向性として、受入研究者が分布ロバスト最適化、深層学習、最適輸送の３つを提示し、それぞれの基礎理論を教示しつつ、最新の論文を調査するために４ヶ月を費やした。その結果、分布ロバスト制御を取り入れた強化学習に関する研究に焦点を定め、定式化とその可解性を検討してきた。分布ロバスト最適化（DRO）は、不確実性の下で意思決定を行うという課題に取り組む数理最適化の研究分野である。多くの実用的な場面で、意思決定者は、意思決定に影響を与える不確実性を支配する確率分布に関する不完全な情報や曖昧な情報に直面する。DROは、このような不確実性に強い意思決定を最適化するためのフレームワークを提供する。DROでは、可能性のあるすべての不確実性に対応する確率分布の集合に対して意思決定が頑健であることを保証する。この特徴により、DROはサプライチェーンマネジメント、金融、エネルギー、輸送など、幅広い応用先に適用されてきた。こうした活発な研究は、モーメントベースのアプローチ、曖昧性集合、Wassersteinベースのアプローチなど、いくつかの理論的および計算的アプローチの開発につながった。申請者はこうした研究背景を適切に理解しつつ、ネットワーク化制御、強化学習に関連する形でいくつかの定式化をおこなった。残念ながら、事情により滞在は今年度で終了となったが、共同研究を継続するための問題意識の共有はおこなうことができた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 突然の滞在終了のため具体的な成果は得られていないが、遠隔で共同研究を継続するための基盤を構築することはできた。8.5ヶ月という期間の短さを考慮すると、妥当な進捗であると評価する。
Strategy for Future Research Activity	研究員の帰国後も、引き続き分布ロバスト制御を取り入れた強化学習に関する研究に関する共同研究を継続する。