2022 年度実績報告書

強化学習にもとづく有限時間整定とフォーメーション制御への応用

研究課題

研究課題/領域番号	22F22038
配分区分	補助金
研究機関	京都大学
研究代表者	加嶋健司京都大学, 情報学研究科, 准教授 (60401551)
研究分担者	WU YANZHI 京都大学, 情報学研究科, 外国人特別研究員
研究期間 (年度)	2022-07-27 – 2025-03-31
キーワード	強化学習 / 最適化
研究実績の概要	研究員のこれまでの研究を拡張する方向性として、受入研究者が分布ロバスト最適化、深層学習、最適輸送の３つを提示し、それぞれの基礎理論を教示しつつ、最新の論文を調査するために４ヶ月を費やした。その結果、分布ロバスト制御を取り入れた強化学習に関する研究に焦点を定め、定式化とその可解性を検討してきた。分布ロバスト最適化（DRO）は、不確実性の下で意思決定を行うという課題に取り組む数理最適化の研究分野である。多くの実用的な場面で、意思決定者は、意思決定に影響を与える不確実性を支配する確率分布に関する不完全な情報や曖昧な情報に直面する。DROは、このような不確実性に強い意思決定を最適化するためのフレームワークを提供する。DROでは、可能性のあるすべての不確実性に対応する確率分布の集合に対して意思決定が頑健であることを保証する。この特徴により、DROはサプライチェーンマネジメント、金融、エネルギー、輸送など、幅広い応用先に適用されてきた。こうした活発な研究は、モーメントベースのアプローチ、曖昧性集合、Wassersteinベースのアプローチなど、いくつかの理論的および計算的アプローチの開発につながった。申請者はこうした研究背景を適切に理解しつつ、ネットワーク化制御、強化学習に関連する形でいくつかの定式化をおこなった。残念ながら、事情により滞在は今年度で終了となったが、共同研究を継続するための問題意識の共有はおこなうことができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由突然の滞在終了のため具体的な成果は得られていないが、遠隔で共同研究を継続するための基盤を構築することはできた。8.5ヶ月という期間の短さを考慮すると、妥当な進捗であると評価する。
今後の研究の推進方策	研究員の帰国後も、引き続き分布ロバスト制御を取り入れた強化学習に関する研究に関する共同研究を継続する。