Decentralized Network-wide Optimum Signal Control by Reinforcement Learning

Research Project

Project/Area Number	23K26216
Project/Area Number (Other)	23H01522 (2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2023)
Section	一般
Review Section	Basic Section 22050:Civil engineering plan and transportation engineering-related
Research Institution	Tohoku University
Principal Investigator	桑原雅夫東北大学, 情報科学研究科, 名誉教授 (50183322)
Co-Investigator(Kenkyū-buntansha)	吉岡慶祐日本大学, 理工学部, 准教授 (30755541) 田名部淳株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 役員, 役員 (40975554) 福田和輝株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (70975581) 橋本申株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (80975582)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥8,710,000 (Direct Cost: ¥6,700,000、Indirect Cost: ¥2,010,000) Fiscal Year 2025: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000) Fiscal Year 2024: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000) Fiscal Year 2023: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Keywords	信号制御 / 強化学習 / 過飽和ネットワーク / 分散制御 / 最適制御 / 過飽和 / 待ち行列の延伸 / ウェーブ速度 / DQN / 交通流伝播
Outline of Research at the Start	本研究は，ネットワーク全体の最適信号制御を分散制御で行う手法について，理論を明らかにするとともに検証するものである．これまでの強化学習を用いた信号制御に関する研究は，2つの大きな課題を残している：①最適制御が得られるかどうかという理論検討が不十分であること，②強化学習の結果として得られるサイクル長，スプリット，オフセットという信号制御パラメータの検討が行われていないことである．本研究では，強化学習の基本であるマルコフ決定過程を，交通流伝播の性質に基づいて再整理し，全体最適を保証する分散制御の条件を理論的に明らかにするとともに，得られた制御パラメータの実務的な妥当性を検証する．
Outline of Annual Research Achievements	本年度は，まず強化学習を用いた信号制御に関する既往研究をレビューし，次元の呪い問題を解決するために，マルチエージェント強化学習（MARL）の適用に関する研究が増えていることと，MARLを用いた場合にはネットワーク全体の最適制御の保証がないので，交差点同士で情報交換するなどの協調制御について研究が行われつつあること，さらに強化学習で出力される制御パラメータについての検証が不足していることを確認した．次に，信号制御の制御目標として，ネットワーク全体のスループット最大化を各リンクの待ち台数の関数として定義した．Kinematic Wave理論に基づいて，信号制御によってもたらされる流れの変化が，ネットワーク上に広がっていくWave伝播の性質を整理し，ある交差点の制御が周辺交差点に伝播するのには，Wave伝播時間だけのタイムラグがあることを示した．さらに，このタイムラグを考慮すると，信号制御の制御目標を表す報酬は，リンク待ち台数の関数となり，リンク待ち台数は同時間ステップの他の交差点の制御に影響を受けないことを明らかにした．この性質を利用して，ネットワーク全体の行動価値と個別交差点の行動価値を定義した．これら行動価値を比較分析することによって，ネットワーク全体の最適制御が，交差点単位の分散制御でも達成できる可能性があり，理論の構築を進めている．さらに，強化学習の計算プログラムを深層学習モデルとCell Transmission Modelという交通シミュレーションモデルを組み合わせて構築し，簡単なネットワークにおいて基礎的な検証実験を実施した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度は，既往研究の十分なレビューを通して，既往研究の課題を明らかにするとともに，その課題に対して，交通流の性質を考慮した理論的な分析を進めることができた．そのため，おおむね順調に進展していると考える．
Strategy for Future Research Activity	今後の研究の推進については，以下を予定している．（１）交通流のWave伝播を考慮して，交差点ごとの分散制御が，ネットワーク全体の最適制御を達成できるかどうかについて，理論的な検討を継続させる．（２）理論的な成果を論文にまとめて公表する．（３）最適制御の適用範囲を，①右左折がある場合，②交通需要の変動がある場合，③交通流に確率変動がる場合，④利用者の経路選択がる場合などについても広げられるための理論展開を行う．（４）実務者との意見交換を行い，信号制御に関する実務上のニーズを確認する．

Report

(1 results)

2023 Annual Research Report

Research Products
(4 results)

All 2023 2022

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] Decentralized Network-wide Signal Control by Reinforcement Learning based on Decomposition of Markov Decision Process2023
- Author(s)
  桑原雅夫, 福田和輝, 橋本申, 佐津川功季, 田名部淳
- Journal Title
  
  JSTE Journal of Traffic Engineering
  
  Volume: 9 Issue: 2 Pages: A_110-A_120
- DOI
  10.14954/jste.9.2_A_110
- ISSN
  2187-2929
- Year and Date
  2023-02-01
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] 強化学習を用いた分散型ネットワーク信号制御－強化学習パラメータの感度分析2023
- Author(s)
  福田和輝，橋本申，桑原雅夫，田名部淳，吉岡慶祐
- Journal Title
  
  土木計画学研究・講演集(CD-ROM)
  
  Volume: 68
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Journal Article] A Fundamental Study on Signal Parameter Optimization by Reinforcement Learning2022
- Author(s)
  桑原雅夫, 福田和輝, 橋本申, 佐津川功季, 田名部淳
- Journal Title
  
  Proceedings of the Conference of Japan Society of Traffic Engineers
  
  Volume: 42 Issue: 0 Pages: 563-570
- DOI
  10.14954/jsteproceeding.42.0_563
- ISSN
  2758-3635
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Presentation] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2023
- Author(s)
  福田和輝
- Organizer
  第42回交通工学研究発表会
- Related Report
  2023 Annual Research Report

Decentralized Network-wide Optimum Signal Control by Reinforcement Learning

Principal Investigator

桑原 雅夫 東北大学, 情報科学研究科, 名誉教授 (50183322)

¥8,710,000 (Direct Cost: ¥6,700,000、Indirect Cost: ¥2,010,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Decentralized Network-wide Signal Control by Reinforcement Learning based on Decomposition of Markov Decision Process2023

Author(s)

Journal Title

DOI

ISSN

Year and Date

Related Report

[Journal Article] 強化学習を用いた分散型ネットワーク信号制御－ 強化学習パラメータの感度分析2023

Author(s)

Journal Title

Related Report

[Journal Article] A Fundamental Study on Signal Parameter Optimization by Reinforcement Learning2022

Author(s)

Journal Title

DOI

ISSN

Related Report

[Presentation] 強化学習を用いた信号制御パラメータ最適化に関する基礎的研究2023

Author(s)

Organizer

Related Report

桑原雅夫東北大学, 情報科学研究科, 名誉教授 (50183322)

[Journal Article] 強化学習を用いた分散型ネットワーク信号制御－強化学習パラメータの感度分析2023