2023 Fiscal Year Annual Research Report
安定・安全を指向する逆強化学習に基づく運転行動モデリング
Project/Area Number |
21H03517
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
下坂 正倫 東京工業大学, 情報理工学院, 准教授 (40431796)
|
Co-Investigator(Kenkyū-buntansha) |
小竹 元基 東京工業大学, 工学院, 教授 (10345085)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 逆強化学習 / 運転行動モデリング / 確率的パス探索 / RRT |
Outline of Annual Research Achievements |
近年,先進運転支援システムと呼ばれる,ドライバの運転をアシストする技術の開発が盛んである.それらの技術の発展に,熟練ドライバの運転規範の適切なモデル化と予測技術の開発が望まれている.本研究では,モデル化・予測の枠組の一つとして逆強化学習に注目する.本研究では,運転行動という応用上の特性を踏まえ,「安定性・安全性」に注目した方法論の確立を目指している. 今年度は,昨年度まで開発してきた非ホロノミックなRRTベース最適パス生成法を継続して取り組んだ.昨年度までに開発したアルゴリズムの基本構成をそのままに,手法の評価に注力して取り組んだ.実験を通じて,本研究で開発したアルゴリズムは,他のパス生成手法に比べ精度・計算時間のバランスに優れることを確認した.また,本研究が対象とする運転状況を拡大するため,動的な走行環境中での最適パス生成アルゴリズム,およびその逆強化学習にも取り組んだ.人工知能分野で提案されている歩行者経路予測モデルの出力に基づく報酬場を用意し,教示した運転データを用いて最適化するものである. また,昨年度から継続して,負の運転事案を安全に収集するためのシミュレーション環境の開発に取り組んだ.年度途中から,オープンソースフレームワークであるCARLAの利用に切り替え,運転データ収集を実施した.通常の運転データに加え,負の事案として,障害物への衝突といった運転データを収集した. また,昨年度開発した,ラグランジュ未定乗数法に基づく正例負例に基づく逆強化学習法の評価も継続して行った.この評価には,上述の環境を用いて収集した運転データを用いた.実験の結果,提案手法は,他の手法に比べ安定的な学習の収束性を担保し,また,得られた報酬場によって負の事案を抑制するような行動を生成できることを確認した.
|
Research Progress Status |
令和5年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和5年度が最終年度であるため、記入しない。
|