2022 Fiscal Year Research-status Report
制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究
Project/Area Number |
22K12158
|
Research Institution | Chubu University |
Principal Investigator |
松井 藤五郎 中部大学, 生命健康科学部, 教授 (90366443)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 強化学習 / 安全な強化学習 / 組合せ最適化 / 配送計画問題 |
Outline of Annual Research Achievements |
2022年度は、深層強化学習を実際の物流業務における配送時間制約付き配車計画問題に適用するための準備として、巡回セールスマン問題 (TSP) を深層強化学習を用いて解く手法おける報酬の改善方法について検討した。また、制約充足確率に拡張する予定である成功確率に基づく安全な強化学習の手法を深層強化学習に拡張する方法について検討した。 実際の物流業務においては、複数の配送先が非常に近い位置にあることがある。配送先が離れている場合には経路を変更すると経路長が大きく変わるが、配送先が非常に近い位置にある場合には経路を変更しても経路長がほとんど変わらない。先行研究において提案された最短経路長を新しく作成した経路長の差分(改善分)を報酬とする手法においては、このような問題に対しては報酬が非常に小さくなり、学習が進まなくなってしまう。そこで本研究では、平方根を用いた報酬関数を導入することによって、1より小さい報酬を増加させるとともに1より大きい報酬を減少させる方法を開発した。この手法を実際の運送会社の配送経路探索問題に適用し、配送先が非常に近い位置に密集している問題において有効であることを確認した。この成果については、2023年6月に熊本で開催される2023年度人工知能学会全国大会(第37回)において発表する予定である。 また、我々がこれまでに開発した成功確率に基づく安全な強化学習の手法 EQ を深層強化学習の手法である DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN に拡張した。この成果については、2022年度6月に京都で開催された2022年度人工知能学会全国大会(第36回)において発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の研究計画では、2022年度は成功確率に基づく安全な強化学習の手法である EQ を深層強化学習を用いた手法に拡張する予定であった。深層強化学習の手法である DQN をベースとして、変分オートエンコーダー (VAE) を用いて成功し続ける確率を推定して行動価値に反映させる手法 DEQN を開発した。 しかしながら、開発した DEQN では、失敗を回避することには成功したものの、目的地には到達することができなかった。これは、検証に用いた環境が、目的地に近づくと正の報酬、目的地から遠ざかると負の報酬が発生するものであり、正の報酬を得るために目的に向かうと失敗してしまう可能性があるため、目的地に向かわないことが原因であることが判明した。 制約充足確率を用いた深層強化学習の手法に拡張して時間制約付き配車計画問題に適用するには、まずはこの問題を解決する必要がある。
|
Strategy for Future Research Activity |
2023年度は、2022年度の研究で明らかになった、深層強化学習に拡張した成功確率に基づく安全な強化学習の手法 DEQN が失敗を回避することはできるものの目的地に向かわないという問題を解決する方法について検討する。 並行して、2022年度に報酬関数を改良した、深層強化学習を用いて巡回セールスマン問題 (TSP) を解く手法について、時間制約付き TSP に拡張する方法を開発する。
|
Causes of Carryover |
2022年度は、深層強化学習用の計算機を購入するための物品費を1,000千円、国際会議での最新動向調査のための旅費を300千円計上していた。深層教科学習用の計算機の購入に1,100千円にかかったため、残りの200千円で国際会議に参加することを検討したが、新型コロナウイルス対策のために航空制限がかかっており、渡航費用が予定より高くなることと、帰国前に渡航先で陰性証明を取得する必要があるなどの課題があり、2022年度中の渡航を見送った。 2023年度に繰り越した200千円については、2023年度に計上している400千円と合わせて、国際会議での最新動向の調査のための旅費に充てる。
|