2011 Fiscal Year Annual Research Report
経路選択行動の強化学習理論とアルゴリズムに関する実証的研究
Project/Area Number |
22360201
|
Research Institution | Tohoku University |
Principal Investigator |
宮城 俊彦 東北大学, 大学院・情報科学研究科, 教授 (20092968)
|
Co-Investigator(Kenkyū-buntansha) |
福本 潤也 東北大学, 大学院・情報科学研究科, 准教授 (30323447)
|
Keywords | ゲーム理論 / 強化学習理論 / 実験経済学 / 経路選択行動 / リグレット基準 / ネットワーク均衡 / 離散的交通行動理論 / ロジット均衡 |
Research Abstract |
平成23年度の研究の目的は,ゲーム理論の観点から交通行動を記述するとともに収束の保証されたアルゴリズムを開発することであった.交通行動のモデル化はネットワーク利用者の得ている情報の関数として交通選択を記述することである.ここでの交通情報とは経路の走行コストであり,走行コストは経路利用者数の関数で表される.本研究では,交通ゲームをnaive userとinformed userに分類している.naive userとは,自分の経験した利得の実現値しか知らず,自己および他者の利得関数(コスト関数)を知らない利用者を指す.一方,informed userとは,利用しなかった経路の情報を何らかの方法で入手できる利用者を指す.交通センター等の外部機関から交通情報を得る場合をannounced payoffを得る利用者と呼び,自分で探索できる計算能力を持つ場合をanticipated payoffをもつ利用者と呼ぶ.後者の場合,自己の効用関数を知っており,また,他者の行動の相対頻度が観測できると仮定している.これらの条件の下で,利用者が知覚する利得は摂動を含むので確率近似公式で表すことができる.以下の結果を得た. 1. naive user, informed userのいずれの場合も,確率近似公式で表される知覚利得のダイナミクスは,通常の微分方程式(ODE)で近似でき,長期的には,確率1でNash分布に収束する.収束点では,知覚利得の推定値の期待値は利得関数を知っている場合に得られる値に一致する. 2. ODEの収束で得られる均衡点はNash分布(ロジット均衡)である.しかし,ロジット選択公式における分散パラメータ(μ)が小さい場合は,収束点はNash均衡の近似点になる.本研究で用いられる分散パラメータ更新式は,反復を繰り返すことによってμを限りなくゼロに近づけることができるので,得られる収束点はε-Nash均衡点である. 3. 本研究で利用者を開発した学習アルゴリズムは,atomic mdel, non-atomicモデルの両方に適用できる.atomic modelの収束は従来の方法に比べ格段に速い. 4. 交通ゲームにおけるプレイヤーはトリップ行為者の集団と見なすことができる.この性質を利用すれば,本研究で開発したアルゴリズムは実用規模のネットワークにも適用可能である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1年目に経済実験,2年目にゲーム理論を基礎にした学習アルゴリズムを作成するという当初の予定通りに研究は進行している.
|
Strategy for Future Research Activity |
本研究では,informed driverおよびnaive driverに対応した学習アルゴリズム作成,また,atomic gameおよびnon-atomic gameに対応したアルゴリズムを同一のフレームワークで構成することを目標にしている. 平成24年度の目標は,以下の2つである. 1.22年度の室内実験で得られた個人の選択行動履歴を再現するようなモデルの行動パラメータ推定法の開発.従来の非集計モデルは,他者の行動を考慮しないという意味で,本研究の指向するパラメータ推定法の特殊形と言うことができる. 2.23年度で開発したモデルを実用規模のネットワークに適用できるように発展させる.
|
Research Products
(3 results)