2022 Fiscal Year Research-status Report
Basic framework of the asymptotic best-response model with deep-reinforcement learning in the traffic simulation applications
Project/Area Number |
20K04719
|
Research Institution | Gifu University |
Principal Investigator |
宮城 俊彦 岐阜大学, 工学部, 特任教授 (20092968)
|
Co-Investigator(Kenkyū-buntansha) |
倉内 文孝 岐阜大学, 工学部, 教授 (10263104)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 離散的動的経路選択モデル / 漸近的最適応答 / Nash均衡 / 交通ネットワークシミュレーション / 深層強化学習 / ゲーミフィケーション / 道路交通マネジメント |
Outline of Annual Research Achievements |
本研究は、交通システムを利用する個々のユーザーを個別の意思決定者と捉え、特に経路選択行動を対象にゲーム論的なマルチユーザーシステムとしてモデル化し、その日々の選択行動を学習モデルして定式化し、短期政策効果をシミュレーションする手法の確立を目的としている。本研究で提案された手法を漸近的最適応答(ABR)モデルと呼び、確率的・動的に変動するネットワーク分析に有用である。ABRの動的安定性解析は微分包含で表され、再帰的な複数Nash均衡に収束する。ABRはミクロ交通流シミュレーションモデルと併用することにより、シミュレーションベースの動的経路選択モデルとして機能するが、非連続な交通費用関数の場合を含む複雑なコスト関数の場合にも適用可能であり、また、異なる時間価値のマルチユーザーの場合にもNash均衡に収束する点で汎用性がある。このような離散的動的モデルの実用性をさらに高めるために、深層強化学習と組み合わせることにより、追い越し行動などのドライバーのより複雑な挙動をモデル化することが当該年度の課題であった。しかし、シングルユーザーの場合の解析は終了したもののマルチユーザーの場合のシステムの安定性が課題として残された。 ABRは、利用者の自己組織的な学習行動に基礎を置くが、交通システムの実際の運用においては道路管理者がユーザーに交通情報を提供することによって何らかの形で介入することも必要になろう。この目的のため、ゲーミフィケーションを用いた道路交通マネージメントの可能性を検討課題とした。すなわち、行動変容には内発的な動機付けのみならず外発的動機付けも必要であるとのアイデアである。ABRとゲーミフィケーションは全く異なるアプローチに思えるが強化学習理論の枠内で統一的なモデル化が可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
深層強化学習と組み合わせることにより、追い越し行動など、ドライバーのより複雑な挙動をモデル化を本年の課題としてきた。深層強化学習を応用した交通流シミュレーションについてはシングルユーザーのケースについては既にMITで開発されており、これ自体は目新しいテーマではない。本研究は、これをマルチエージェントモデルとしてゲーム論的にシミュレーションモデルを構築する点に斬新性がある。しかし、追い越し等を含めたマルチエージェントモデルでは、ネットワーク均衡を求めることが極めて困難であることがシミュレーション結果より明らかになった。現在、この問題の背景にある理論的原因を究明することが課題の一つである。同時にNash的な自己最適化ではなく、社会的ジレンマの解決策としての相利共生的な利用者行動モデルの構築も考えている。つまり、交通流が不安定になる理由は自己組織的行動が多数のユーザーが利用する一種の社会的<場>においてはコンフリクトを生じさせるのではないかという考え方である。このモデル化には認知理論の分野で研究されている強化学習モデルを応用する。一方、行動変容には内発的な動機付けのみならならず外発的動機付けも必要であるとのアイデアからゲーミフィケーションを利用した手法の開発にも着手する。
|
Strategy for Future Research Activity |
本年度は、以下の2つのアプローチで研究を進める。 1)相利共生的な経路選択モデルの構築:これまでの研究では交通システムの利用に伴う利得(報酬)のみを対象に、Nash均衡を実現する手法の開発に重点を置いてきた。しかし、利用者の複雑な交通挙動をモデル化するには利己的ユーザーの自発的動機付けモデルだけでは不十分である。交通空間を互いの利益が相反する場として捉えた場合、社会システムのコンフリクト緩和するアプローチが必要である。この目的のため、通常の利用により得られる<報酬>に加え、追い越しなどにより高い利益を得ようとする<誘惑>そして交通ルールを逸することによる<罰則>、更には他者に迷惑を与える<迷惑>などの要素を導入し、これらの相互関係から決定される選択性向を用いて満足度を高めるような行動変容モデルを考え、道路空間上のジレンマの解決するアプローチを検討する。このアプローチは心理学などの分野で研究されてきたが道路空間での行動モデルとして利用された研究はない。 2)ゲーミフィケーションを用いた道路管理システム:外的な動機付けに基づく行動変容モデルであり、道路利用者の走行データを道路管理者が収集し、それに基づく混雑緩和のガイダンスを与える場合、それがどの程度行動変容を促すかを実験的に確認する。このため、広島を対象とした社会実験を通してその有効性を確認する。このアプローチは強化学習の一種であるprofit-sharingとしてモデル化可能である。
|
Causes of Carryover |
当初予定していた交通流データの購入を断念したためと、国際会議出席をコロナによって断念したことによる。
|
Research Products
(4 results)