2022 年度実績報告書

安定・安全を指向する逆強化学習に基づく運転行動モデリング

研究課題

研究課題/領域番号	21H03517
研究機関	東京工業大学
研究代表者	下坂正倫東京工業大学, 情報理工学院, 准教授 (40431796)
研究分担者	小竹元基東京工業大学, 工学院, 教授 (10345085)
研究期間 (年度)	2021-04-01 – 2024-03-31
キーワード	逆強化学習 / 運転行動モデリング / 確率的パス探索
研究実績の概要	近年，先進運転支援システムと呼ばれる，ドライバの運転をアシストする技術の開発が盛んである．それらの技術の発展に，熟練ドライバの運転規範の適切なモデル化と予測技術の開発が望まれている．本研究では，モデル化・予測の枠組の一つとして逆強化学習に注目する．本研究では，運転行動という応用上の特性を踏まえ，「安定性・安全性」に注目した方法論の確立を目指している．今年度は，昨年度開発した，非ホロノミックなRRTベース最適パス生成法，および最適パス候補群に基づく重点サンプリングベース報酬場学習法を改善した．特に，前半のパス生成法において，時区間終端における状態量を制約条件とする最適化問題に取り組んだ．この条件を加味することで，多様な運転行動を対象とすることが可能となる．一方，終端条件を加味したパス生成では，2つの状態量を結ぶ有限区間の局所的な最適パス生成という新しいサブ問題が必要となる．そのサブ問題の最適解の精度と計算量にはトレードオフが生じるため，本研究では精度と計算時間のバランスを加味し複数のアプローチを試行錯誤し開発を進めた．また，運転行動の正負事案から学習する行動モデルの基本的な定式化としてラグランジュ未定乗数法に基づくアルゴリズムを試作した．これは，凸最適化として定式化され，大域的収束性を保証するアルゴリズムである．特に，時区間中の一部のみ負例・残りは正例とするような時系列の正負のラベリングを導入することで，既存の類似研究で課題となっていた，報酬場の収束性が保証されない課題を解消するものである．試作したアルゴリズムの理論導出に加え，人工データを活用した実験を実施し，アルゴリズムの特性を吟味した．また，負の運転事案を安全に収集するためのシミュレーション環境の開発を進めた．複数のオープンソースフレームワークを吟味した上で，本年度はAutowareに基づく環境の試作を行った．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究プロジェクトで想定している3つの要素について，それぞれ進展があるため，このように判断した．パス生成アルゴリズムおよび報酬場最適化の手法については国際会議で発表した．また，パス生成手法の発展を国内会議で発表した．また，正負事例を扱う逆強化学習に基づく運転行動モデリングについては，2023年度国内会議での発表を予定している．
今後の研究の推進方策	正負事例に基づく逆強化学習の評価は人工データに留まっており，本格的な評価には，運転シミュレータ環境を活用したデータ収集が必須である．シミュレータ環境の整備と共に，運転データの収集を加速し，正負事例の運転行動モデリングの開発に繋げていく予定である．

研究成果
(1件)

すべて学会発表 (1件)

[学会発表] Sequential 2D Continuous Kinodynamic RRT for Driving Behavior at Un-signalized Intersections with Stop Lines2022
- 著者名/発表者名
  Shaoyu Yang and Masamichi Shimosaka.
- 学会等名
  日本ロボット学会