制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

研究課題

研究課題/領域番号	22K12158
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	中部大学
研究代表者	松井藤五郎中部大学, 生命健康科学部, 教授 (90366443)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円) 2022年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	強化学習 / 安全な強化学習 / 組合せ最適化 / 配送計画問題
研究開始時の研究の概要	深層強化学習を組合せ最適化問題に応用する研究が行われているが、実際の物流業務における配送時間制約付き配車計画問題に適用可能な手法はまだ開発されていない。本研究では、研究代表者らがこれまでに開発した成功確率に基づく強化学習をベースにして制約充足確率に基づく深層強化学習の手法を開発し、実際の物流業務における配送時間制約付き配車計画問題に対する有効性を検証する。
研究実績の概要	2023年度は、6月に熊本で開催された人工知能学会全国大会 (JSAI 2023) において、2022年度に開発した深層強化学習に拡張した成功確率に基づく安全な強化学習の手法 DEQN に関する研究成果を発表した。また、2022年度の研究で明らかになった、DEQN が失敗を回避することはできるものの目的地に向かわないという問題を解決する方法について検討した。 2022年度に開発した、DQN をベースとして Variable Autoencoder (VAE) を用いて成功し続ける確率を推定する手法 DEQN の替わりに、Soft Actor Critic (SAC) を成功確率と収益に基づく強化学習に拡張した SACEQ を開発した。SACEQ では、SAC における Actor の誤差関数を成功確率と収益に基づいたものに変更した。また、成功し続ける確率の対数の期待値 PrQ の値域が (-∞, 0] であるために誤差が大きくなりすぎてしまう問題に対処するため、SACEQ では、PrQ を推定する替わりに e^PrQ を直接推定するようにした。さらに、SACEQ では、従来の成功確率を推定する方法が使えないため、深層ニューラル・ネットワークを用いたロジスティック回帰によって推定するようにした。この成果については、2024年3月に石川で開催された第147回情報処理学会数理モデル化と問題解決研究会 (IPSJ-MPS) で発表した。また、グラフを入力とする深層学習に関連する研究の成果を11月にイギリスで開催されたイギリス機械視覚会議 (BMVC) のワークショップ (CVG 2023) で発表した。この他、8月にアメリカで開催されたACM学会知識発見とデータ・マイニング国際会議 (KDD 2023) に参加し、この分野の最新動向について調査した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由当初の研究計画では、2023年度は成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張してグラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習できるようにする予定であったが、2022年度の研究においてベースとなる成功確率に基づく安全な強化学習の手法 DEQN に目的地に向かわないという問題があることが明らかとなった。そのため、2023年度は、この問題が生じる原因を究明するために、VAE の替わりに SAC をベースとした成功確率と収益に基づく安全な強化学習の手法 SACEQ を開発した。SACEQ は、DEQN の問題であった目的地に向かわないという問題を解決することはできたが、失敗回数が少ない場合には成功確率を正確に推定することができず失敗を回避できないという問題があることが明らかとなった。
今後の研究の推進方策	2024年度は、成功確率に基づく安全な強化学習における成功確率を制約充足確率に拡張し、グラフにおける制約付き組合せ最適化問題において制約充足確率に基づいた行動を学習する手法を開発する。開発した手法を時間制約付き巡回セールスマン問題 (TSP) の問題に適用し、その有効性を評価する。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2024 2023 2022

すべて学会発表 (5件) (うち国際学会 1件)

[学会発表] SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習2024
- 著者名/発表者名
  大橋宥斗, 松井藤五郎, 武藤敦子, 森山甲一, 島孔介, 犬塚信博
- 学会等名
  第147回情報処理学会数理モデル化と問題解決研究会 (IPSJ-MPS)
- 関連する報告書
  2023 実施状況報告書
[学会発表] STEP CATFormer: Spatial-temporal effective body-part cross attention transformer for skeleton-based action recognition2023
- 著者名/発表者名
  Bao Long Nguyen Huu, Tohgoroh Matsui
- 学会等名
  The 34th British Machine Vision Conference (BMVC 2023) Workshop on Computer Vision for Games and Games for Computer Vision (CVG 2023)
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] 深層強化学習を用いた経路最適化における報酬の改良2023
- 著者名/発表者名
  松井藤五郎, 石田匠吾
- 学会等名
  第37回人工知能学会全国大会 (JSAI 2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] 組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク2022
- 著者名/発表者名
  グェンフウバオロン、松井藤五郎、原謙介
- 学会等名
  2022年度人工知能学会全国大会（第36回）
- 関連する報告書
  2022 実施状況報告書
[学会発表] DQNに基づく連続観測空間における安全な強化学習2022
- 著者名/発表者名
  大橋宥斗、松井藤五郎、武藤敦子、森山甲一、犬塚信博
- 学会等名
  2022年度人工知能学会全国大会（第36回）
- 関連する報告書
  2022 実施状況報告書

制約充足確率に基づく強化学習による組合せ最適化問題の解法に関する基礎的研究

研究代表者

松井 藤五郎 中部大学, 生命健康科学部, 教授 (90366443)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] STEP CATFormer: Spatial-temporal effective body-part cross attention transformer for skeleton-based action recognition2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層強化学習を用いた経路最適化における報酬の改良2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 組合せ最適化におけるジャンピングとアテンションを用いたグラフニューラルネットワーク2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] DQNに基づく連続観測空間における安全な強化学習2022

著者名/発表者名

学会等名

関連する報告書

松井藤五郎中部大学, 生命健康科学部, 教授 (90366443)