昨年度は深層強化学習を用いて比較的シンプルな円制限三体問題の軌道探索を自動化する枠組みの提案を行った。強化学習によって研究目的の一つ「探索結果の学習による探索の効率化 (単発性の解消)」は一部達成できたものの、強化学習は将来の情報を正確に予測することが苦手であり、探索精度や探索効率に課題があった。 そこで今年度は、後の最適化を前提に初期軌道のみを強化学習で探索する枠組みの構築を目指した。強化学習の適用対象を初期軌道に絞ることで、探索精度や探索効率の抜本的な改善を図った。 提案手法では軌道探索を二段階に分割し、それぞれ軌道の初期解生成を行うアウターループと最適制御理論に基づく最適化を行うインナーループとした。アウターループは柔軟な軌道生成が行えるように深層生成モデルで構築され、インナーループでの最適化後に良い局所解が得られやすいような「良い初期解分布」となるよう、強化学習によって訓練される。 制御理論の厳密さや透明性を取り入れ、研究目的の一つ「解を得た過程の可視化(不透明性の解消)」にも繋がる内容であり、今後toy problemによる詳細な検証と円制限三体問題の軌道探索への応用が重要となる。
|