Basic framework of the asymptotic best-response model with deep-reinforcement learning in the traffic simulation applications
Project/Area Number |
20K04719
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 22050:Civil engineering plan and transportation engineering-related
|
Research Institution | Gifu University |
Principal Investigator |
宮城 俊彦 岐阜大学, 工学部, 特任教授 (20092968)
|
Co-Investigator(Kenkyū-buntansha) |
倉内 文孝 岐阜大学, 工学部, 教授 (10263104)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
|
Keywords | 離散的動的経路選択モデル / 漸近的最適応答 / Nash均衡 / 交通ネットワークシミュレーション / 深層強化学習 / ゲーミフィケーション / 道路交通マネジメント / 交通流シミュレーション / ゲーム理論 / 動的交通流配分 / 強化学習 / 交通流シミュレーションモデル / 深層学習 / 一般化弱仮想プレイ / 確率近似理論 / リカレントニューラルネットワーク / Day-to-day 動的配分 / ナッシュ均衡 / 動学的交通量配分 |
Outline of Research at the Start |
我が国のみならず世界において自動走行支援システムの実用化が急速に進展してきているが、その技術が実際に導入された場合の影響を把握する手法の開発は遅れている。技術開発の影響は一般に交通シミュレーション手法を用いて行われ、道路交通のもたらす環境影響評価や混雑や事故緩和効果の経済的メリットを測定するのに利用されてきた。しかし、既存の手法では刻々と変化する道路環境における交通情報の果たす役割が十分に織り込めておらず、また、個々の情報に基づくドライバー各自の最善行動がシステム全体に与える錯乱の影響も評価できない。本研究はこうした問題解決に資する理論とシミュレーション手法の開発を意図している。
|
Outline of Annual Research Achievements |
本研究は、交通システムを利用する個々のユーザーを個別の意思決定者と捉え、特に経路選択行動を対象にゲーム論的なマルチユーザーシステムとしてモデル化し、その日々の選択行動を学習モデルして定式化し、短期政策効果をシミュレーションする手法の確立を目的としている。本研究で提案された手法を漸近的最適応答(ABR)モデルと呼び、確率的・動的に変動するネットワーク分析に有用である。ABRの動的安定性解析は微分包含で表され、再帰的な複数Nash均衡に収束する。ABRはミクロ交通流シミュレーションモデルと併用することにより、シミュレーションベースの動的経路選択モデルとして機能するが、非連続な交通費用関数の場合を含む複雑なコスト関数の場合にも適用可能であり、また、異なる時間価値のマルチユーザーの場合にもNash均衡に収束する点で汎用性がある。このような離散的動的モデルの実用性をさらに高めるために、深層強化学習と組み合わせることにより、追い越し行動などのドライバーのより複雑な挙動をモデル化することが当該年度の課題であった。しかし、シングルユーザーの場合の解析は終了したもののマルチユーザーの場合のシステムの安定性が課題として残された。 ABRは、利用者の自己組織的な学習行動に基礎を置くが、交通システムの実際の運用においては道路管理者がユーザーに交通情報を提供することによって何らかの形で介入することも必要になろう。この目的のため、ゲーミフィケーションを用いた道路交通マネージメントの可能性を検討課題とした。すなわち、行動変容には内発的な動機付けのみならず外発的動機付けも必要であるとのアイデアである。ABRとゲーミフィケーションは全く異なるアプローチに思えるが強化学習理論の枠内で統一的なモデル化が可能である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
深層強化学習と組み合わせることにより、追い越し行動など、ドライバーのより複雑な挙動をモデル化を本年の課題としてきた。深層強化学習を応用した交通流シミュレーションについてはシングルユーザーのケースについては既にMITで開発されており、これ自体は目新しいテーマではない。本研究は、これをマルチエージェントモデルとしてゲーム論的にシミュレーションモデルを構築する点に斬新性がある。しかし、追い越し等を含めたマルチエージェントモデルでは、ネットワーク均衡を求めることが極めて困難であることがシミュレーション結果より明らかになった。現在、この問題の背景にある理論的原因を究明することが課題の一つである。同時にNash的な自己最適化ではなく、社会的ジレンマの解決策としての相利共生的な利用者行動モデルの構築も考えている。つまり、交通流が不安定になる理由は自己組織的行動が多数のユーザーが利用する一種の社会的<場>においてはコンフリクトを生じさせるのではないかという考え方である。このモデル化には認知理論の分野で研究されている強化学習モデルを応用する。一方、行動変容には内発的な動機付けのみならならず外発的動機付けも必要であるとのアイデアからゲーミフィケーションを利用した手法の開発にも着手する。
|
Strategy for Future Research Activity |
本年度は、以下の2つのアプローチで研究を進める。 1)相利共生的な経路選択モデルの構築:これまでの研究では交通システムの利用に伴う利得(報酬)のみを対象に、Nash均衡を実現する手法の開発に重点を置いてきた。しかし、利用者の複雑な交通挙動をモデル化するには利己的ユーザーの自発的動機付けモデルだけでは不十分である。交通空間を互いの利益が相反する場として捉えた場合、社会システムのコンフリクト緩和するアプローチが必要である。この目的のため、通常の利用により得られる<報酬>に加え、追い越しなどにより高い利益を得ようとする<誘惑>そして交通ルールを逸することによる<罰則>、更には他者に迷惑を与える<迷惑>などの要素を導入し、これらの相互関係から決定される選択性向を用いて満足度を高めるような行動変容モデルを考え、道路空間上のジレンマの解決するアプローチを検討する。このアプローチは心理学などの分野で研究されてきたが道路空間での行動モデルとして利用された研究はない。 2)ゲーミフィケーションを用いた道路管理システム:外的な動機付けに基づく行動変容モデルであり、道路利用者の走行データを道路管理者が収集し、それに基づく混雑緩和のガイダンスを与える場合、それがどの程度行動変容を促すかを実験的に確認する。このため、広島を対象とした社会実験を通してその有効性を確認する。このアプローチは強化学習の一種であるprofit-sharingとしてモデル化可能である。
|
Report
(3 results)
Research Products
(12 results)