強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究

研究課題

研究課題/領域番号	23K26216
補助金の研究課題番号	23H01522 (2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2023)
応募区分	一般
審査区分	小区分22050:土木計画学および交通工学関連
研究機関	東北大学
研究代表者	桑原雅夫東北大学, 情報科学研究科, 名誉教授 (50183322)
研究分担者	吉岡慶祐日本大学, 理工学部, 准教授 (30755541) 田名部淳株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 役員, 役員 (40975554) 福田和輝株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (70975581) 橋本申株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (80975582)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	8,710千円 (直接経費: 6,700千円、間接経費: 2,010千円) 2025年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2024年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2023年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
キーワード	信号制御 / 強化学習 / 過飽和ネットワーク / 分散制御 / 最適制御 / 過飽和 / 待ち行列の延伸 / ウェーブ速度 / DQN / 交通流伝播
研究開始時の研究の概要	本研究は，ネットワーク全体の最適信号制御を分散制御で行う手法について，理論を明らかにするとともに検証するものである．これまでの強化学習を用いた信号制御に関する研究は，2つの大きな課題を残している：①最適制御が得られるかどうかという理論検討が不十分であること，②強化学習の結果として得られるサイクル長，スプリット，オフセットという信号制御パラメータの検討が行われていないことである．本研究では，強化学習の基本であるマルコフ決定過程を，交通流伝播の性質に基づいて再整理し，全体最適を保証する分散制御の条件を理論的に明らかにするとともに，得られた制御パラメータの実務的な妥当性を検証する．
研究実績の概要	本年度は，まず強化学習を用いた信号制御に関する既往研究をレビューし，次元の呪い問題を解決するために，マルチエージェント強化学習（MARL）の適用に関する研究が増えていることと，MARLを用いた場合にはネットワーク全体の最適制御の保証がないので，交差点同士で情報交換するなどの協調制御について研究が行われつつあること，さらに強化学習で出力される制御パラメータについての検証が不足していることを確認した．次に，信号制御の制御目標として，ネットワーク全体のスループット最大化を各リンクの待ち台数の関数として定義した．Kinematic Wave理論に基づいて，信号制御によってもたらされる流れの変化が，ネットワーク上に広がっていくWave伝播の性質を整理し，ある交差点の制御が周辺交差点に伝播するのには，Wave伝播時間だけのタイムラグがあることを示した．さらに，このタイムラグを考慮すると，信号制御の制御目標を表す報酬は，リンク待ち台数の関数となり，リンク待ち台数は同時間ステップの他の交差点の制御に影響を受けないことを明らかにした．この性質を利用して，ネットワーク全体の行動価値と個別交差点の行動価値を定義した．これら行動価値を比較分析することによって，ネットワーク全体の最適制御が，交差点単位の分散制御でも達成できる可能性があり，理論の構築を進めている．さらに，強化学習の計算プログラムを深層学習モデルとCell Transmission Modelという交通シミュレーションモデルを組み合わせて構築し，簡単なネットワークにおいて基礎的な検証実験を実施した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は，既往研究の十分なレビューを通して，既往研究の課題を明らかにするとともに，その課題に対して，交通流の性質を考慮した理論的な分析を進めることができた．そのため，おおむね順調に進展していると考える．
今後の研究の推進方策	今後の研究の推進については，以下を予定している．（１）交通流のWave伝播を考慮して，交差点ごとの分散制御が，ネットワーク全体の最適制御を達成できるかどうかについて，理論的な検討を継続させる．（２）理論的な成果を論文にまとめて公表する．（３）最適制御の適用範囲を，①右左折がある場合，②交通需要の変動がある場合，③交通流に確率変動がる場合，④利用者の経路選択がる場合などについても広げられるための理論展開を行う．（４）実務者との意見交換を行い，信号制御に関する実務上のニーズを確認する．

報告書

(1件)

2023 実績報告書

研究成果
(4件)

すべて 2023 2022

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)

[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御－ Markov 決定過程の分解による最適制御－2023
- 著者名/発表者名
  桑原雅夫, 福田和輝, 橋本申, 佐津川功季, 田名部淳
- 雑誌名
  
  交通工学論文集
  
  巻: 9 号: 2 ページ: A_110-A_120
- DOI
  10.14954/jste.9.2_A_110
- ISSN
  2187-2929
- 年月日
  2023-02-01
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御－強化学習パラメータの感度分析2023
- 著者名/発表者名
  福田和輝，橋本申，桑原雅夫，田名部淳，吉岡慶祐
- 雑誌名
  
  土木計画学研究・講演集(CD-ROM)
  
  巻: 68
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2022
- 著者名/発表者名
  桑原雅夫, 福田和輝, 橋本申, 佐津川功季, 田名部淳
- 雑誌名
  
  交通工学研究発表会論文集
  
  巻: 42 号: 0 ページ: 563-570
- DOI
  10.14954/jsteproceeding.42.0_563
- ISSN
  2758-3635
- 関連する報告書
  2023 実績報告書
- 査読あり
[学会発表] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2023
- 著者名/発表者名
  福田和輝
- 学会等名
  第42回交通工学研究発表会
- 関連する報告書
  2023 実績報告書

強化学習を用いた分散制御によるネットワーク信号制御の最適化に関する研究

研究代表者

桑原 雅夫 東北大学, 情報科学研究科, 名誉教授 (50183322)

8,710千円 (直接経費: 6,700千円、間接経費: 2,010千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御 － Markov 決定過程の分解による最適制御 －2023

著者名/発表者名

雑誌名

DOI

ISSN

年月日

関連する報告書

[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御－ 強化学習パラメータの感度分析2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[学会発表] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2023

著者名/発表者名

学会等名

関連する報告書

桑原雅夫東北大学, 情報科学研究科, 名誉教授 (50183322)

[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御－ Markov 決定過程の分解による最適制御－2023

[雑誌論文] 強化学習を用いた分散型ネットワーク信号制御－強化学習パラメータの感度分析2023