2006 Fiscal Year Annual Research Report
経路選択のための知識・学習アルゴリズムの開発とその実用性に関する研究
Project/Area Number |
18560519
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Gifu University |
Principal Investigator |
宮城 俊彦 岐阜大学, 地域科学部, 教授 (20092968)
|
Keywords | Wardrop均衡 / Hannan均衡 / Nash均衡 / 接近性定理 / 繰り返しゲーム / 強化学習 / 交通均衡 / 適応学習 |
Research Abstract |
ドライバーの利用できる交通情報の状況に関し、次の2つを仮定し、それぞれに応じた適応学習アルゴリズムを開発し、その有効性を数値実験によって確認した。 (1)利用可能なすべての経路について所要時間時間情報が利用できるドライバーのみによって構成されるシステム。ただし、経路情報はトリップ終了後にしか得ることはできない。 (2)自分の利用した経路の交通情報しか利用できないドライバーによって構成されるシステム。この場合も交通情報は事後的なものである。 上記の2つのケースいづれの場合も同一の時間価値をもつドライバー集団なのか、あるいは非均一な集団かで状況は異なってくる。さらに外部環境についても定常な場合と非定常な場合が想定できる。非定常なケースについてはリンク交通量が収束するにつれて消えていくノイズと確率分布に従って日々発生するノイズを想定する。この場合、リンク所要時間は常に変化しているのでドライバーは正確な経路情報を得ることはできない。 研究によって得られた結論は以下のようである。 (1)ダイナミックな交通環境を前提にする場合、従来のWardrop均衡よりもHannan均衡のほうが適切である。Hannan均衡はNash均衡を含む広い均衡概念であり、定常な環境で、一様なドライバー集団のときWardrop均衡に等しくなる。 (2)Hannan均衡に収束するアルゴリズムはBlackwellの接近性定理を援用して導くことができる。 (3)確率的仮想プレイはHannan均衡を満足しないが、近似的にHannan均衡に収束する。したがって、本研究で開発したアルゴリズムは近似的にWardrop均衡を満足する。 (4)外的環境が非定常な場合でも各経路の所要時間の時間平均値は等しくなるように働く。すなわち、日々の交通に関してはWardrop均衡ではないが、その時間平均値に関しては等時間原則が成立する。 (5)不完全情報のドライバーの場合、彼の参照するデータは昨日の走行経験値であり、それと今日の経験との比較を通して経路選択モデルを構築することができる。この場合にも、完全情報と同様、システムはHannan均衡に収束する。 (6)個々のドライバーの時間価値がそれぞれ異なる場合、システムはWardrop均衡にはならないが、個々のドライバーは自己の効用を大きくする経路選択する。
|