2022 年度実施状況報告書

深層強化学習を内包した漸近的最適応答モデルと交通流シミュレーション分析への応用

研究課題

研究課題/領域番号	20K04719
研究機関	岐阜大学
研究代表者	宮城俊彦岐阜大学, 工学部, 特任教授 (20092968)
研究分担者	倉内文孝岐阜大学, 工学部, 教授 (10263104)
研究期間 (年度)	2020-04-01 – 2024-03-31
キーワード	離散的動的経路選択モデル / 漸近的最適応答 / Nash均衡 / 交通ネットワークシミュレーション / 深層強化学習 / ゲーミフィケーション / 道路交通マネジメント
研究実績の概要	本研究は、交通システムを利用する個々のユーザーを個別の意思決定者と捉え、特に経路選択行動を対象にゲーム論的なマルチユーザーシステムとしてモデル化し、その日々の選択行動を学習モデルして定式化し、短期政策効果をシミュレーションする手法の確立を目的としている。本研究で提案された手法を漸近的最適応答(ABR)モデルと呼び、確率的・動的に変動するネットワーク分析に有用である。ABRの動的安定性解析は微分包含で表され、再帰的な複数Nash均衡に収束する。ABRはミクロ交通流シミュレーションモデルと併用することにより、シミュレーションベースの動的経路選択モデルとして機能するが、非連続な交通費用関数の場合を含む複雑なコスト関数の場合にも適用可能であり、また、異なる時間価値のマルチユーザーの場合にもNash均衡に収束する点で汎用性がある。このような離散的動的モデルの実用性をさらに高めるために、深層強化学習と組み合わせることにより、追い越し行動などのドライバーのより複雑な挙動をモデル化することが当該年度の課題であった。しかし、シングルユーザーの場合の解析は終了したもののマルチユーザーの場合のシステムの安定性が課題として残された。 ABRは、利用者の自己組織的な学習行動に基礎を置くが、交通システムの実際の運用においては道路管理者がユーザーに交通情報を提供することによって何らかの形で介入することも必要になろう。この目的のため、ゲーミフィケーションを用いた道路交通マネージメントの可能性を検討課題とした。すなわち、行動変容には内発的な動機付けのみならず外発的動機付けも必要であるとのアイデアである。ABRとゲーミフィケーションは全く異なるアプローチに思えるが強化学習理論の枠内で統一的なモデル化が可能である。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由深層強化学習と組み合わせることにより、追い越し行動など、ドライバーのより複雑な挙動をモデル化を本年の課題としてきた。深層強化学習を応用した交通流シミュレーションについてはシングルユーザーのケースについては既にMITで開発されており、これ自体は目新しいテーマではない。本研究は、これをマルチエージェントモデルとしてゲーム論的にシミュレーションモデルを構築する点に斬新性がある。しかし、追い越し等を含めたマルチエージェントモデルでは、ネットワーク均衡を求めることが極めて困難であることがシミュレーション結果より明らかになった。現在、この問題の背景にある理論的原因を究明することが課題の一つである。同時にNash的な自己最適化ではなく、社会的ジレンマの解決策としての相利共生的な利用者行動モデルの構築も考えている。つまり、交通流が不安定になる理由は自己組織的行動が多数のユーザーが利用する一種の社会的＜場＞においてはコンフリクトを生じさせるのではないかという考え方である。このモデル化には認知理論の分野で研究されている強化学習モデルを応用する。一方、行動変容には内発的な動機付けのみならならず外発的動機付けも必要であるとのアイデアからゲーミフィケーションを利用した手法の開発にも着手する。
今後の研究の推進方策	本年度は、以下の2つのアプローチで研究を進める。 1）相利共生的な経路選択モデルの構築：これまでの研究では交通システムの利用に伴う利得（報酬）のみを対象に、Nash均衡を実現する手法の開発に重点を置いてきた。しかし、利用者の複雑な交通挙動をモデル化するには利己的ユーザーの自発的動機付けモデルだけでは不十分である。交通空間を互いの利益が相反する場として捉えた場合、社会システムのコンフリクト緩和するアプローチが必要である。この目的のため、通常の利用により得られる＜報酬＞に加え、追い越しなどにより高い利益を得ようとする＜誘惑＞そして交通ルールを逸することによる＜罰則＞、更には他者に迷惑を与える＜迷惑＞などの要素を導入し、これらの相互関係から決定される選択性向を用いて満足度を高めるような行動変容モデルを考え、道路空間上のジレンマの解決するアプローチを検討する。このアプローチは心理学などの分野で研究されてきたが道路空間での行動モデルとして利用された研究はない。 2）ゲーミフィケーションを用いた道路管理システム：外的な動機付けに基づく行動変容モデルであり、道路利用者の走行データを道路管理者が収集し、それに基づく混雑緩和のガイダンスを与える場合、それがどの程度行動変容を促すかを実験的に確認する。このため、広島を対象とした社会実験を通してその有効性を確認する。このアプローチは強化学習の一種であるprofit-sharingとしてモデル化可能である。
次年度使用額が生じた理由	当初予定していた交通流データの購入を断念したためと、国際会議出席をコロナによって断念したことによる。

研究成果
(4件)

すべて 2022

すべて雑誌論文 (4件) (うち査読あり 4件、オープンアクセス 2件)

[雑誌論文] Identifying Golden Routes in Tourist Areas based on AMP Collectors2022
- 著者名/発表者名
  1.Zhou, G, Kurauchi, F, Ito, S and Du, R.
- 雑誌名
  
  Asian Transport Studies
  
  巻: 8 ページ: -
- DOI
  10.1016/j.eastsj.2021.100052
- 査読あり / オープンアクセス
[雑誌論文] Applying the Hyperpath Concept to Public Transit Accessibility Evaluation2022
- 著者名/発表者名
  2.Kaewkluengklom, R, Kurauchi, F. and Iwamoto, T.
- 雑誌名
  
  Journal of EASTS
  
  巻: 14 ページ: 374,389
- DOI
  10.11175/easts.14.374
- 査読あり / オープンアクセス
[雑誌論文] 社会的費用最小化バスネットワークデザイン：木構造制約による二段階アプローチ2022
- 著者名/発表者名
  3.秋岡路暉，杉浦聡志，倉内文孝
- 雑誌名
  
  土木学会論文集
  
  巻: 77(5) ページ: I_823-I_833
- 査読あり
[雑誌論文] Discrepancy of route choice between theoretical hyperpath and actual choice based on smart card data in Shizuoka, Japan2022
- 著者名/発表者名
  1.Kaewkluengklom R., Kurauchi, F and Iwamoto T.
- 雑誌名
  
  Proceedings of the 6th Conference on Sustainable Urban Mobility
  
  巻: - ページ: 251,265
- 査読あり

2022 年度 実施状況報告書

深層強化学習を内包した漸近的最適応答モデルと交通流シミュレーション分析への応用

研究代表者

宮城 俊彦 岐阜大学, 工学部, 特任教授 (20092968)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Identifying Golden Routes in Tourist Areas based on AMP Collectors2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] Applying the Hyperpath Concept to Public Transit Accessibility Evaluation2022

著者名/発表者名

雑誌名

DOI

[雑誌論文] 社会的費用最小化バスネットワークデザイン：木構造制約による二段階アプローチ2022

著者名/発表者名

雑誌名

[雑誌論文] Discrepancy of route choice between theoretical hyperpath and actual choice based on smart card data in Shizuoka, Japan2022

著者名/発表者名

雑誌名

2022 年度実施状況報告書

宮城俊彦岐阜大学, 工学部, 特任教授 (20092968)