Project/Area Number |
23K26216
|
Project/Area Number (Other) |
23H01522 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 22050:Civil engineering plan and transportation engineering-related
|
Research Institution | Tohoku University |
Principal Investigator |
桑原 雅夫 東北大学, 情報科学研究科, 名誉教授 (50183322)
|
Co-Investigator(Kenkyū-buntansha) |
吉岡 慶祐 日本大学, 理工学部, 准教授 (30755541)
田名部 淳 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 役員, 役員 (40975554)
福田 和輝 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (70975581)
橋本 申 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (80975582)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥8,710,000 (Direct Cost: ¥6,700,000、Indirect Cost: ¥2,010,000)
Fiscal Year 2025: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2024: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
|
Keywords | 信号制御 / 強化学習 / 過飽和ネットワーク / 分散制御 / 最適制御 / 過飽和 / 待ち行列の延伸 / ウェーブ速度 / DQN / 交通流伝播 |
Outline of Research at the Start |
本研究は,ネットワーク全体の最適信号制御を分散制御で行う手法について,理論を明らかにするとともに検証するものである.これまでの強化学習を用いた信号制御に関する研究は,2つの大きな課題を残している:①最適制御が得られるかどうかという理論検討が不十分であること,②強化学習の結果として得られるサイクル長,スプリット,オフセットという信号制御パラメータの検討が行われていないことである.本研究では,強化学習の基本であるマルコフ決定過程を,交通流伝播の性質に基づいて再整理し,全体最適を保証する分散制御の条件を理論的に明らかにするとともに,得られた制御パラメータの実務的な妥当性を検証する.
|
Outline of Annual Research Achievements |
本年度は,まず強化学習を用いた信号制御に関する既往研究をレビューし,次元の呪い問題を解決するために,マルチエージェント強化学習(MARL)の適用に関する研究が増えていることと,MARLを用いた場合にはネットワーク全体の最適制御の保証がないので,交差点同士で情報交換するなどの協調制御について研究が行われつつあること,さらに強化学習で出力される制御パラメータについての検証が不足していることを確認した. 次に,信号制御の制御目標として,ネットワーク全体のスループット最大化を各リンクの待ち台数の関数として定義した.Kinematic Wave理論に基づいて,信号制御によってもたらされる流れの変化が,ネットワーク上に広がっていくWave伝播の性質を整理し,ある交差点の制御が周辺交差点に伝播するのには,Wave伝播時間だけのタイムラグがあることを示した.さらに,このタイムラグを考慮すると,信号制御の制御目標を表す報酬は,リンク待ち台数の関数となり,リンク待ち台数は同時間ステップの他の交差点の制御に影響を受けないことを明らかにした.この性質を利用して,ネットワーク全体の行動価値と個別交差点の行動価値を定義した.これら行動価値を比較分析することによって,ネットワーク全体の最適制御が,交差点単位の分散制御でも達成できる可能性があり,理論の構築を進めている. さらに,強化学習の計算プログラムを深層学習モデルとCell Transmission Modelという交通シミュレーションモデルを組み合わせて構築し,簡単なネットワークにおいて基礎的な検証実験を実施した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は,既往研究の十分なレビューを通して,既往研究の課題を明らかにするとともに,その課題に対して,交通流の性質を考慮した理論的な分析を進めることができた.そのため,おおむね順調に進展していると考える.
|
Strategy for Future Research Activity |
今後の研究の推進については,以下を予定している.(1)交通流のWave伝播を考慮して,交差点ごとの分散制御が,ネットワーク全体の最適制御を達成できるかどうかについて,理論的な検討を継続させる.(2)理論的な成果を論文にまとめて公表する.(3)最適制御の適用範囲を,①右左折がある場合,②交通需要の変動がある場合,③交通流に確率変動がる場合,④利用者の経路選択がる場合などについても広げられるための理論展開を行う.(4)実務者との意見交換を行い,信号制御に関する実務上のニーズを確認する.
|