制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

Research Project

Project/Area Number	22K12158
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Chubu University
Principal Investigator	松井藤五郎中部大学, 生命健康科学部, 教授 (90366443)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000) Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Keywords	強化学習 / 安全な強化学習 / 組合せ最適化 / 配送計画問題
Outline of Research at the Start	深層強化学習を組合せ最適化問題に応用する研究が行われているが、実際の物流業務における配送時間制約付き配車計画問題に適用可能な手法はまだ開発されていない。本研究では、研究代表者らがこれまでに開発した成功確率に基づく強化学習をベースにして制約充足確率に基づく深層強化学習の手法を開発し、実際の物流業務における配送時間制約付き配車計画問題に対する有効性を検証する。
Outline of Annual Research Achievements	2023年度は、6月に熊本で開催された人工知能学会全国大会 (JSAI 2023) において、2022年度に開発した深層強化学習に拡張した成功確率に基づく安全な強化学習の手法 DEQN に関する研究成果を発表した。また、2022年度の研究で明らかになった、DEQN が失敗を回避することはできるものの目的地に向かわないという問題を解決する方法について検討した。 2022年度に開発した、DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN の替わりに、Soft Actor Critic (SAC) を成功確率と収益に基づく強化学習に拡張した SACEQ を開発した。SACEQ では、SAC における Actor の誤差関数を成功確率と収益に基づいたものに変更した。また、成功し続ける確率の対数の期待値 PrQ の値域が (-∞, 0] であるために誤差が大きくなりすぎてしまう問題に対処するため、SACEQ では、PrQ を推定する替わりに e^PrQ を直接推定するようにした。さらに、SACEQ では、従来の成功確率を推定する方法が使えないため、深層ニューラル・ネットワークを用いたロジスティック回帰によって推定するようにした。この成果については、2024年3月に石川で開催された第147回情報処理学会数理モデル化と問題解決研究会 (IPSJ-MPS) で発表した。また、グラフを入力とする深層学習に関連する研究の成果を11月にイギリスで開催されたイギリス機械視覚会議 (BMVC) のワークショップ (CVG 2023) で発表した。この他、8月にアメリカで開催されたACM学会知識発見とデータ・マイニング国際会議 (KDD 2023) に参加し、この分野の最新動向について調査した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初の研究計画では、2023年度は成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張してグラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習できるようにする予定であったが、2022年度の研究においてベースとなる成功確率に基づく安全な強化学習の手法 DEQN に目的地に向かわないという問題があることが明らかとなった。そのため、2023年度は、この問題が生じる原因を究明するために、VAE の替わりに SAC をベースとした成功確率と収益に基づく安全な強化学習の手法 SACEQ を開発した。SACEQ は、DEQN の問題であった目的地に向かわないという問題を解決することはできたが、失敗回数が少ない場合には成功確率を正確に推定することができず失敗を回避できないという問題があることが明らかとなった。
Strategy for Future Research Activity	2024年度は、成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張し、グラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習する手法を開発する。開発した手法を時間制約付き巡回セールスマン問題 (TSP) の問題に適用し、その有効性を評価する。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(5 results)

All 2024 2023 2022

All Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Presentation] SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習2024
- Author(s)
  大橋宥斗, 松井藤五郎, 武藤敦子, 森山甲一, 島孔介, 犬塚信博
- Organizer
  第147回情報処理学会数理モデル化と問題解決研究会 (IPSJ-MPS)
- Related Report
  2023 Research-status Report
[Presentation] STEP CATFormer: Spatial-temporal effective body-part cross attention transformer for skeleton-based action recognition2023
- Author(s)
  Bao Long Nguyen Huu, Tohgoroh Matsui
- Organizer
  The 34th British Machine Vision Conference (BMVC 2023) Workshop on Computer Vision for Games and Games for Computer Vision (CVG 2023)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 深層強化学習を用いた経路最適化における報酬の改良2023
- Author(s)
  松井藤五郎, 石田匠吾
- Organizer
  第37回人工知能学会全国大会 (JSAI 2023)
- Related Report
  2023 Research-status Report
[Presentation] 組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク2022
- Author(s)
  グェンフウバオロン、松井藤五郎、原謙介
- Organizer
  2022年度人工知能学会全国大会（第36回）
- Related Report
  2022 Research-status Report
[Presentation] DQNに基づく連続観測空間における安全な強化学習2022
- Author(s)
  大橋宥斗、松井藤五郎、武藤敦子、森山甲一、犬塚信博
- Organizer
  2022年度人工知能学会全国大会（第36回）
- Related Report
  2022 Research-status Report

制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

Principal Investigator

松井 藤五郎 中部大学, 生命健康科学部, 教授 (90366443)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習2024

Author(s)

Organizer

Related Report

[Presentation] STEP CATFormer: Spatial-temporal effective body-part cross attention transformer for skeleton-based action recognition2023

Author(s)

Organizer

Related Report

[Presentation] 深層強化学習を用いた経路最適化における報酬の改良2023

Author(s)

Organizer

Related Report

[Presentation] 組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク2022

Author(s)

Organizer

Related Report

[Presentation] DQNに基づく連続観測空間における安全な強化学習2022

Author(s)

Organizer

Related Report

松井藤五郎中部大学, 生命健康科学部, 教授 (90366443)