2012 Fiscal Year Annual Research Report
経路選択行動の強化学習理論とアルゴリズムに関する実証的研究
Project/Area Number |
22360201
|
Research Institution | Tohoku University |
Principal Investigator |
宮城 俊彦 東北大学, 情報科学研究科, 教授 (20092968)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 繰り返しゲーム / 強化学習 / 交通行動理論 / 適応学習アルゴリズム / Nash均衡 / 利用者均衡 / 確率近似理論 / 動的離散的選択モデル |
Research Abstract |
本研究の目的は、利用者の交通情報は不完全であるという仮定に立ち、走行経験を通して環境を学習し、より良い結果を強化していく学習行動を基礎とした交通行動理論および適応的選択行動アルゴリズムを開発することである。本年度は、Naive Userアルゴリズムの開発と実証研究およびモデルのパラメータ推定法の開発を目標とした。 1.Naive User(NU)アルゴリズムの開発と実証研究 ドライバーは自己の利得関数を知らず、他者の利得関数も知らない、利用者が利用できる情報は、自己が経験した経路の実現利得のみである、利用者は利用しなかった経路の利得を過去の経験から推測する、という仮定の下、次の補題を証明した。すなわち、「提案したNUアルゴリズムの下では、システムは確率1でNash均衡に収束することはない。」この結論はuncopulingモデルではNash均衡に収束することはない、という最近の理論研究をアルゴリズム理論の観点から再度示したものとなっている。得られた結論が、実際に成立することを数値実験によって確認した。提案したアルゴリズムは、確率1での収束を保証するものではないが、60%~90%でNash均衡に収束する。つまり、現実の交通環境でも、Nash(あるいはWardrop)均衡はかなり高い頻度で生じる可能性があることを明らかにしている。 2.モデルの構造パラメータ推定法の開発 平成22年度に実施した室内実験で得られた動的データを用いて経路選択モデルの構造パラメータ推定を行う方法を開発した。動学データを用いて均衡とパラメータ推定を同時に達成する手法は提案されていない。推定はBayse-Nash均衡とパラメータ推定を同時に行う手法である。提案手法を用いることによって、静学モデルよりも統計的に有意なパラメータが得られ、かつ、理論的な均衡値に収束することが明らかになった。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(9 results)