研究課題/領域番号 |
21H03517
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 東京工業大学 |
研究代表者 |
下坂 正倫 東京工業大学, 情報理工学院, 准教授 (40431796)
|
研究分担者 |
小竹 元基 東京工業大学, 工学院, 教授 (10345085)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,030千円 (直接経費: 13,100千円、間接経費: 3,930千円)
2023年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2022年度: 6,760千円 (直接経費: 5,200千円、間接経費: 1,560千円)
2021年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
|
キーワード | 逆強化学習 / 模倣学習 / 運転行動モデリング / 逆最適制御 / 高速パス探索 / RRT / 最大エントロピー学習 / パス探索 / 重点サンプリング / 運転行動予測 |
研究開始時の研究の概要 |
交通事故撲滅に向け先進運転支援システムの技術開発が近年盛んに行われている.一方,生活道路中の死亡交通事故件数の減少率は緩慢であり,更なる知的支援技術の基盤として,熟練ドライバの運転特性を模倣するモデリング手法(行動予測・シミュレーション行動生成)に期待が高まっている.本研究では,逆強化学習を基盤に,既存技術に比べ高い安定性・安全性を指向する方法論の確立を目指す.具体的には1)大域的最適性を追求する探索ベースの予測技術(安定性),2)熟練者の教示(正例)に加えて負例を導入したモデリング(安全性)を構築し,構築した枠組の評価を行う.
|
研究実績の概要 |
近年,先進運転支援システムと呼ばれる,ドライバの運転をアシストする技術の開発が盛んである.それらの技術の発展に,熟練ドライバの運転規範の適切なモデル化と予測技術の開発が望まれている.本研究では,モデル化・予測の枠組の一つとして逆強化学習に注目する.本研究では,運転行動という応用上の特性を踏まえ,「安定性・安全性」に注目した方法論の確立を目指している. 逆強化学習は大きく分けて,1) 与えられた報酬場での最適パス生成,2) 教示軌道と1)における最適パス生成との差分に基づく報酬場の更新,から構成される.2)は1)に大きく依存することから,1)の性質が逆強化学習の成否に大きく影響を与えることが分かる.自動車運転行動を対象とした場合,古典的な逆強化学習で議論されてきたような離散的状態空間での大域的に最適なパス生成は難しい.一方,高次元連続状態空間中の局所最適性のパス生成を扱う必要があり,その際のパス生成の安定性の欠如が課題となっている. 本研究では,パス生成の枠組として,探索空間全体を確率的・網羅的に探索する枠組を採用することで,パス生成の安定化の達成を試みた.また,従来の研究では議論されてこなかった,2)における1)の結果の利活用の効率化についても注力して手法を開発した.具体的には,1) について,ロボット工学分野でよく使われるRRTパス探索技法を非ホロノミック運動に適したテンプレートベース探索手法を開発した.さらに,2) について,このRRTの結果を活用する重点サンプリング手法を開発し,これに基づく効率的な報酬場更新アルゴリズムを構築した. 車線変更タスク,交差点での右左折タスクに関してパス生成および報酬場復元それぞれについて性能を評価し,提案した枠組の有効性を検証した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
上記の研究概要に関連する投稿論文はIEEE Intelligent Vehicle Symposium 2022に採択され,「安定性」に関する逆強化学習について計画通りの成果が得られたと考えている.また,運転行動データの収集に関する準備作業についても順調に進めることができている.
|
今後の研究の推進方策 |
理論・手法面の更なるブラッシュアップに向け,研究室に在籍するリサーチアシスタント学生とも議論を深めていく.また,運転行動データの収集に関して,2022年度より当該分野の専門家である,東京大学新領域創成科学研究科小竹先生を研究分担者に加え,活動の促進を図る.
|