制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究
Project/Area Number |
22K12158
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Chubu University |
Principal Investigator |
松井 藤五郎 中部大学, 生命健康科学部, 教授 (90366443)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 強化学習 / 安全な強化学習 / 組合せ最適化 / 配送計画問題 |
Outline of Research at the Start |
深層強化学習を組合せ最適化問題に応用する研究が行われているが、実際の物流業務における配送時間制約付き配車計画問題に適用可能な手法はまだ開発されていない。 本研究では、研究代表者らがこれまでに開発した成功確率に基づく強化学習をベースにして制約充足確率に基づく深層強化学習の手法を開発し、実際の物流業務における配送時間制約付き配車計画問題に対する有効性を検証する。
|
Outline of Annual Research Achievements |
2022年度は、深層強化学習を実際の物流業務における配送時間制約付き配車計画問題に適用するための準備として、巡回セールスマン問題 (TSP) を深層強化学習を用いて解く手法おける報酬の改善方法について検討した。また、制約充足確率に拡張する予定である成功確率に基づく安全な強化学習の手法を深層強化学習に拡張する方法について検討した。 実際の物流業務においては、複数の配送先が非常に近い位置にあることがある。配送先が離れている場合には経路を変更すると経路長が大きく変わるが、配送先が非常に近い位置にある場合には経路を変更しても経路長がほとんど変わらない。先行研究において提案された最短経路長を新しく作成した経路長の差分(改善分)を報酬とする手法においては、このような問題に対しては報酬が非常に小さくなり、学習が進まなくなってしまう。そこで本研究では、平方根を用いた報酬関数を導入することによって、1より小さい報酬を増加させるとともに1より大きい報酬を減少させる方法を開発した。この手法を実際の運送会社の配送経路探索問題に適用し、配送先が非常に近い位置に密集している問題において有効であることを確認した。この成果については、2023年6月に熊本で開催される2023年度人工知能学会全国大会(第37回)において発表する予定である。 また、我々がこれまでに開発した成功確率に基づく安全な強化学習の手法 EQ を深層強化学習の手法である DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN に拡張した。この成果については、2022年度6月に京都で開催された2022年度人工知能学会全国大会(第36回)において発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の研究計画では、2022年度は成功確率に基づく安全な強化学習の手法である EQ を深層強化学習を用いた手法に拡張する予定であった。深層強化学習の手法である DQN をベースとして、変分オートエンコーダー (VAE) を用いて成功し続ける確率を推定して行動価値に反映させる手法 DEQN を開発した。 しかしながら、開発した DEQN では、失敗を回避することには成功したものの、目的地には到達することができなかった。これは、検証に用いた環境が、目的地に近づくと正の報酬、目的地から遠ざかると負の報酬が発生するものであり、正の報酬を得るために目的に向かうと失敗してしまう可能性があるため、目的地に向かわないことが原因であることが判明した。 制約充足確率を用いた深層強化学習の手法に拡張して時間制約付き配車計画問題に適用するには、まずはこの問題を解決する必要がある。
|
Strategy for Future Research Activity |
2023年度は、2022年度の研究で明らかになった、深層強化学習に拡張した成功確率に基づく安全な強化学習の手法 DEQN が失敗を回避することはできるものの目的地に向かわないという問題を解決する方法について検討する。 並行して、2022年度に報酬関数を改良した、深層強化学習を用いて巡回セールスマン問題 (TSP) を解く手法について、時間制約付き TSP に拡張する方法を開発する。
|
Report
(1 results)
Research Products
(2 results)