2021 Fiscal Year Annual Research Report
安定・安全を指向する逆強化学習に基づく運転行動モデリング
Project/Area Number |
21H03517
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
下坂 正倫 東京工業大学, 情報理工学院, 准教授 (40431796)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | RRT / パス探索 / 重点サンプリング / 運転行動予測 |
Outline of Annual Research Achievements |
近年,先進運転支援システムと呼ばれる,ドライバの運転をアシストする技術の開発が盛んである.それらの技術の発展に,熟練ドライバの運転規範の適切なモデル化と予測技術の開発が望まれている.本研究では,モデル化・予測の枠組の一つとして逆強化学習に注目する.本研究では,運転行動という応用上の特性を踏まえ,「安定性・安全性」に注目した方法論の確立を目指している. 逆強化学習は大きく分けて,1) 与えられた報酬場での最適パス生成,2) 教示軌道と1)における最適パス生成との差分に基づく報酬場の更新,から構成される.2)は1)に大きく依存することから,1)の性質が逆強化学習の成否に大きく影響を与えることが分かる.自動車運転行動を対象とした場合,古典的な逆強化学習で議論されてきたような離散的状態空間での大域的に最適なパス生成は難しい.一方,高次元連続状態空間中の局所最適性のパス生成を扱う必要があり,その際のパス生成の安定性の欠如が課題となっている. 本研究では,パス生成の枠組として,探索空間全体を確率的・網羅的に探索する枠組を採用することで,パス生成の安定化の達成を試みた.また,従来の研究では議論されてこなかった,2)における1)の結果の利活用の効率化についても注力して手法を開発した.具体的には,1) について,ロボット工学分野でよく使われるRRTパス探索技法を非ホロノミック運動に適したテンプレートベース探索手法を開発した.さらに,2) について,このRRTの結果を活用する重点サンプリング手法を開発し,これに基づく効率的な報酬場更新アルゴリズムを構築した. 車線変更タスク,交差点での右左折タスクに関してパス生成および報酬場復元それぞれについて性能を評価し,提案した枠組の有効性を検証した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
上記の研究概要に関連する投稿論文はIEEE Intelligent Vehicle Symposium 2022に採択され,「安定性」に関する逆強化学習について計画通りの成果が得られたと考えている.また,運転行動データの収集に関する準備作業についても順調に進めることができている.
|
Strategy for Future Research Activity |
理論・手法面の更なるブラッシュアップに向け,研究室に在籍するリサーチアシスタント学生とも議論を深めていく.また,運転行動データの収集に関して,2022年度より当該分野の専門家である,東京大学新領域創成科学研究科小竹先生を研究分担者に加え,活動の促進を図る.
|