制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究
Project/Area Number |
22K12158
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Chubu University |
Principal Investigator |
松井 藤五郎 中部大学, 生命健康科学部, 教授 (90366443)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 強化学習 / 安全な強化学習 / 組合せ最適化 / 配送計画問題 |
Outline of Research at the Start |
深層強化学習を組合せ最適化問題に応用する研究が行われているが、実際の物流業務における配送時間制約付き配車計画問題に適用可能な手法はまだ開発されていない。 本研究では、研究代表者らがこれまでに開発した成功確率に基づく強化学習をベースにして制約充足確率に基づく深層強化学習の手法を開発し、実際の物流業務における配送時間制約付き配車計画問題に対する有効性を検証する。
|
Outline of Annual Research Achievements |
2023年度は、6月に熊本で開催された人工知能学会全国大会 (JSAI 2023) において、2022年度に開発した深層強化学習に拡張した成功確率に基づく安全な強化学習の手法 DEQN に関する研究成果を発表した。また、2022年度の研究で明らかになった、DEQN が失敗を回避することはできるものの目的地に向かわないという問題を解決する方法について検討した。 2022年度に開発した、DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN の替わりに、Soft Actor Critic (SAC) を成功確率と収益に基づく強化学習に拡張した SACEQ を開発した。SACEQ では、SAC における Actor の誤差関数を成功確率と収益に基づいたものに変更した。また、成功し続ける確率の対数の期待値 PrQ の値域が (-∞, 0] であるために誤差が大きくなりすぎてしまう問題に対処するため、SACEQ では、PrQ を推定する替わりに e^PrQ を直接推定するようにした。さらに、SACEQ では、従来の成功確率を推定する方法が使えないため、深層ニューラル・ネットワークを用いたロジスティック回帰によって推定するようにした。この成果については、2024年3月に石川で開催された第147回情報処理学会数理モデル化と問題解決研究会 (IPSJ-MPS) で発表した。 また、グラフを入力とする深層学習に関連する研究の成果を11月にイギリスで開催されたイギリス機械視覚会議 (BMVC) のワークショップ (CVG 2023) で発表した。 この他、8月にアメリカで開催されたACM学会知識発見とデータ・マイニング国際会議 (KDD 2023) に参加し、この分野の最新動向について調査した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の研究計画では、2023年度は成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張してグラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習できるようにする予定であったが、2022年度の研究においてベースとなる成功確率に基づく安全な強化学習の手法 DEQN に目的地に向かわないという問題があることが明らかとなった。そのため、2023年度は、この問題が生じる原因を究明するために、VAE の替わりに SAC をベースとした成功確率と収益に基づく安全な強化学習の手法 SACEQ を開発した。SACEQ は、DEQN の問題であった目的地に向かわないという問題を解決することはできたが、失敗回数が少ない場合には成功確率を正確に推定することができず失敗を回避できないという問題があることが明らかとなった。
|
Strategy for Future Research Activity |
2024年度は、成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張し、グラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習する手法を開発する。開発した手法を時間制約付き巡回セールスマン問題 (TSP) の問題に適用し、その有効性を評価する。
|
Report
(2 results)
Research Products
(5 results)