2022 Fiscal Year Annual Research Report
Combinatorial Optimizer Based on Deep Reinforcement Learning
Project/Area Number |
20K11988
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
飯間 等 京都工芸繊維大学, 情報工学・人間科学系, 准教授 (70273547)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 深層強化学習 / 組合せ最適化 / 強化学習 / モンテカルロ木探索 |
Outline of Annual Research Achievements |
本研究の目的は、短時間での最適解の発見が困難であることが知られる組合せ最適化問題に対して、人工知能の中心技術である深層強化学習により問題の決定変数の最適値を学習させ、その学習が組合せ最適化問題を解くことに貢献するかどうかを研究することである。 本研究の実施計画では、囲碁に対して提案されている深層強化学習に基づく最適化法を開発することとなっている。そこで、この深層強化学習に組み込まれているモンテカルロ木探索のみを用いて最適化を行う方法をまず開発し、次にモンテカルロ木探索を組み込んだ深層強化学習に基づく組合せ最適化法の基本的な枠組みを検討した。これらの最適化法を、組合せ最適化問題としてよく取り上げられる配送スケジューリング問題に適用する数値実験を行い、性能を評価した。 また、本研究の実施計画では、テレビゲームに対して提案されている深層強化学習に基づく最適化法も開発することとなっている。そこで、この最適化法を開発して配送スケジューリング問題に適用する数値実験を行い、最適解や最適に近い解を発見できることを確認した。 さらに、本研究の実施計画では、学習の大半を最初に一度だけ実行するだけで、他の問題に対する解を短時間に得る方法を開発することとなっている。そこで、この最適化法の基本的な枠組みを検討した。この最適化法を配送スケジューリング問題に適用する数値実験を行い、より短時間に優れた解を発見できることを確認した。 なお、問題として用いた配送スケジューリング問題に対して深層強化学習に基づく優れた最適化法を開発できるようにするために、この問題の優れた解に存在する特徴を考察できる最適化法を検討した。また、深層学習の基本的な性能を向上させる方法を検討した。
|
Research Products
(4 results)