研究課題/領域番号 |
23H01522
|
配分区分 | 補助金 |
研究機関 | 東北大学 |
研究代表者 |
桑原 雅夫 東北大学, 情報科学研究科, 名誉教授 (50183322)
|
研究分担者 |
吉岡 慶祐 日本大学, 理工学部, 助教 (30755541)
田名部 淳 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 役員, 役員 (40975554)
福田 和輝 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (70975581)
橋本 申 株式会社地域未来研究所(役員、交通情報研究室、システム開発室、公共交通計画室), 交通情報研究室, 研究員 (80975582)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 信号制御 / 分散制御 / 強化学習 / 過飽和 / 待ち行列の延伸 |
研究実績の概要 |
本年度は,まず強化学習を用いた信号制御に関する既往研究をレビューし,次元の呪い問題を解決するために,マルチエージェント強化学習(MARL)の適用に関する研究が増えていることと,MARLを用いた場合にはネットワーク全体の最適制御の保証がないので,交差点同士で情報交換するなどの協調制御について研究が行われつつあること,さらに強化学習で出力される制御パラメータについての検証が不足していることを確認した. 次に,信号制御の制御目標として,ネットワーク全体のスループット最大化を各リンクの待ち台数の関数として定義した.Kinematic Wave理論に基づいて,信号制御によってもたらされる流れの変化が,ネットワーク上に広がっていくWave伝播の性質を整理し,ある交差点の制御が周辺交差点に伝播するのには,Wave伝播時間だけのタイムラグがあることを示した.さらに,このタイムラグを考慮すると,信号制御の制御目標を表す報酬は,リンク待ち台数の関数となり,リンク待ち台数は同時間ステップの他の交差点の制御に影響を受けないことを明らかにした.この性質を利用して,ネットワーク全体の行動価値と個別交差点の行動価値を定義した.これら行動価値を比較分析することによって,ネットワーク全体の最適制御が,交差点単位の分散制御でも達成できる可能性があり,理論の構築を進めている. さらに,強化学習の計算プログラムを深層学習モデルとCell Transmission Modelという交通シミュレーションモデルを組み合わせて構築し,簡単なネットワークにおいて基礎的な検証実験を実施した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,既往研究の十分なレビューを通して,既往研究の課題を明らかにするとともに,その課題に対して,交通流の性質を考慮した理論的な分析を進めることができた.そのため,おおむね順調に進展していると考える.
|
今後の研究の推進方策 |
今後の研究の推進については,以下を予定している.(1)交通流のWave伝播を考慮して,交差点ごとの分散制御が,ネットワーク全体の最適制御を達成できるかどうかについて,理論的な検討を継続させる.(2)理論的な成果を論文にまとめて公表する.(3)最適制御の適用範囲を,①右左折がある場合,②交通需要の変動がある場合,③交通流に確率変動がる場合,④利用者の経路選択がる場合などについても広げられるための理論展開を行う.(4)実務者との意見交換を行い,信号制御に関する実務上のニーズを確認する.
|