2011 Fiscal Year Annual Research Report

経路選択行動の強化学習理論とアルゴリズムに関する実証的研究

Research Project

Project/Area Number	22360201
Research Institution	Tohoku University
Principal Investigator	宮城俊彦東北大学, 大学院・情報科学研究科, 教授 (20092968)
Co-Investigator(Kenkyū-buntansha)	福本潤也東北大学, 大学院・情報科学研究科, 准教授 (30323447)
Keywords	ゲーム理論 / 強化学習理論 / 実験経済学 / 経路選択行動 / リグレット基準 / ネットワーク均衡 / 離散的交通行動理論 / ロジット均衡
Research Abstract	平成23年度の研究の目的は,ゲーム理論の観点から交通行動を記述するとともに収束の保証されたアルゴリズムを開発することであった.交通行動のモデル化はネットワーク利用者の得ている情報の関数として交通選択を記述することである.ここでの交通情報とは経路の走行コストであり,走行コストは経路利用者数の関数で表される.本研究では,交通ゲームをnaive userとinformed userに分類している.naive userとは,自分の経験した利得の実現値しか知らず,自己および他者の利得関数(コスト関数)を知らない利用者を指す.一方,informed userとは,利用しなかった経路の情報を何らかの方法で入手できる利用者を指す.交通センター等の外部機関から交通情報を得る場合をannounced payoffを得る利用者と呼び,自分で探索できる計算能力を持つ場合をanticipated payoffをもつ利用者と呼ぶ.後者の場合,自己の効用関数を知っており,また,他者の行動の相対頻度が観測できると仮定している.これらの条件の下で,利用者が知覚する利得は摂動を含むので確率近似公式で表すことができる.以下の結果を得た. 1. naive user, informed userのいずれの場合も,確率近似公式で表される知覚利得のダイナミクスは,通常の微分方程式(ODE)で近似でき,長期的には,確率1でNash分布に収束する.収束点では,知覚利得の推定値の期待値は利得関数を知っている場合に得られる値に一致する. 2. ODEの収束で得られる均衡点はNash分布(ロジット均衡)である.しかし,ロジット選択公式における分散パラメータ(μ)が小さい場合は,収束点はNash均衡の近似点になる.本研究で用いられる分散パラメータ更新式は,反復を繰り返すことによってμを限りなくゼロに近づけることができるので,得られる収束点はε-Nash均衡点である. 3. 本研究で利用者を開発した学習アルゴリズムは,atomic mdel, non-atomicモデルの両方に適用できる.atomic modelの収束は従来の方法に比べ格段に速い. 4. 交通ゲームにおけるプレイヤーはトリップ行為者の集団と見なすことができる.この性質を利用すれば,本研究で開発したアルゴリズムは実用規模のネットワークにも適用可能である.
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 1年目に経済実験,2年目にゲーム理論を基礎にした学習アルゴリズムを作成するという当初の予定通りに研究は進行している.
Strategy for Future Research Activity	本研究では,informed driverおよびnaive driverに対応した学習アルゴリズム作成,また,atomic gameおよびnon-atomic gameに対応したアルゴリズムを同一のフレームワークで構成することを目標にしている. 平成24年度の目標は,以下の2つである. 1.22年度の室内実験で得られた個人の選択行動履歴を再現するようなモデルの行動パラメータ推定法の開発.従来の非集計モデルは,他者の行動を考慮しないという意味で,本研究の指向するパラメータ推定法の特殊形と言うことができる. 2.23年度で開発したモデルを実用規模のネットワークに適用できるように発展させる.

Research Products
(3 results)

All 2011

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (1 results)

[Journal Article] An adaptive learning algorithm for a route choice problem in uncertain traffic environments2011
- Author(s)
  Miyagi, T.
- Journal Title
  
  Urban Transport XVII
  
  Volume: 17巻 Pages: 43-52
- DOI
  doi10.2945/UT110041
- Peer Reviewed
[Journal Article] 適応的経路選択モデルにおける経路集合の限定手法と経路分散パラメータの推定法2011
- Author(s)
  宮城俊彦, 遠藤雅人
- Journal Title
  
  土木学会論文集D3
  
  Volume: Vol.67, No.5 Pages: 1541-1552
- Peer Reviewed
[Presentation] 動的経路選択行動の室内実験による検証と分析2011
- Author(s)
  池田愛, 宮城俊彦
- Organizer
  土木計画学研究委員会
- Place of Presentation
  岐阜大学工学部
- Year and Date
  20111125-20111127

2011 Fiscal Year Annual Research Report

経路選択行動の強化学習理論とアルゴリズムに関する実証的研究

Principal Investigator

宮城 俊彦 東北大学, 大学院・情報科学研究科, 教授 (20092968)

Current Status of Research Progress

Reason

Research Products

[Journal Article] An adaptive learning algorithm for a route choice problem in uncertain traffic environments2011

Author(s)

Journal Title

DOI

[Journal Article] 適応的経路選択モデルにおける経路集合の限定手法と経路分散パラメータの推定法2011

Author(s)

Journal Title

[Presentation] 動的経路選択行動の室内実験による検証と分析2011

Author(s)

Organizer

Place of Presentation

Year and Date

宮城俊彦東北大学, 大学院・情報科学研究科, 教授 (20092968)