2022 Fiscal Year Annual Research Report

Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning

Research Project

Project/Area Number	22J20009
Allocation Type	Single-year Grants
Research Institution	Osaka Metropolitan University
Principal Investigator	檜垣岳史大阪公立大学, 大学院工学研究科, 特別研究員(DC1)
Project Period (FY)	2022-04-22 – 2025-03-31
Keywords	自動運航船 / 避航操船 / 逆強化学習 / 模倣学習 / 航路計画 / 熟練船長 / 海上衝突予防法 / 衝突危険領域
Outline of Annual Research Achievements	本研究課題では、人間の経験に従って実行される避航操船行動の定量化を図るとともに、熟練船長の感覚に基づく避航航路の獲得に取り組んだ。まず、最大エントロピー逆強化学習を用いて任意の避航航路から最適報酬を導出する手法を提案した。その検証のため、Dangerous Area of Collision (DAC)と呼ばれる衝突危険領域を避けるようなサンプル航路をあらかじめ生成し、その航路を逆強化学習の入力とすることで報酬関数を推定した。推定された報酬分布がDACの形状と良く一致することから、操船の感覚を定量化する手段として最大エントロピー逆強化学習が有効であることを示した。続いて、一般商船の船長経験者の協力のもと、船長による操船シミュレーション実験を実施した。実験で得られた操船航路をエキスパートデータとし報酬関数を導出することで、熟練船長による避航操船の特徴を明らかにした。さらに、得られる報酬が最大となるような経路探索を行うことで熟練船長の感覚に基づく最適航路計画を提案し、今津問題と呼ばれる避航操船のテストシナリオを用いて最適航路計画の有用性を示した。一連の研究成果は日本船舶海洋工学会論文集36巻に掲載されている。他方、研究の遂行にあたり、逆強化学習の適用範囲が小規模かつ離散的な状態空間に限られるという課題に直面した。そこで、強化学習と逆強化学習の2段階最適化問題を1つのミニマックス問題として定式化した敵対的生成模倣学習を導入し、大規模連続状態空間に適用可能な避航航路計画手法を開発した。本年度は、相手船1隻に対する避航航路のサンプルデータが与えられた際、本手法によって所与の航路を精度良く模倣できること確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画通り、熟練船長の避航操船データに逆強化学習を適用することで船長の操船感覚に基づく最適報酬を導出するとともに、最適報酬に基づく航路計画を策定することができた。加えて、最大エントロピー逆強化学習に内在する適用限界に着目し、敵対的生成模倣学習を用いた避航航路計画手法を開発した。これは当初の計画を前倒して得られた成果である。他方、当初計画していた熟練者の感覚に即した評価指標の提案については未達成であり、研究を加速させていく必要がある。
Strategy for Future Research Activity	次年度は、敵対的生成模倣学習に基づく避航航路計画手法を輻輳海域や制限水域などにも適用できるよう拡張し、汎用的な手法を構築する。さらに、熟練船長の感覚に基づく避航操船の評価指標の確立に取り組む。

Research Products
(4 results)

All 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (3 results)

[Journal Article] Investigation and Imitation of Human Captains' Maneuver Using Inverse Reinforcement Learning2022
- Author(s)
  Takefumi Higaki, Hirotada Hashimoto, Hitoshi Yoshioka
- Journal Title
  
  日本船舶海洋工学会論文集
  
  Volume: 36 Pages: 137-148
- DOI
  10.2534/jjasnaoe.36.137
- Peer Reviewed / Open Access
[Presentation] 自動避航操船のための最適航路計画の策定－逆強化学習による熟練船長の模倣－2022
- Author(s)
  檜垣岳史, 橋本博公, 吉岡舜
- Organizer
  日本船舶海洋工学会令和4年春季講演会
[Presentation] 敵対的生成模倣学習による避航操船行動の再現2022
- Author(s)
  檜垣岳史, 橋本博公
- Organizer
  日本船舶海洋工学会令和4年秋季講演会
[Presentation] 熟練船長による避航操船行動の解明と模倣2022
- Author(s)
  檜垣岳史
- Organizer
  日本船舶海洋工学会関西支部学生研究発表会

2022 Fiscal Year Annual Research Report

Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning

Principal Investigator

檜垣 岳史 大阪公立大学, 大学院工学研究科, 特別研究員(DC1)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Investigation and Imitation of Human Captains' Maneuver Using Inverse Reinforcement Learning2022

Author(s)

Journal Title

DOI

[Presentation] 自動避航操船のための最適航路計画の策定 －逆強化学習による熟練船長の模倣－2022

Author(s)

Organizer

[Presentation] 敵対的生成模倣学習による避航操船行動の再現2022

Author(s)

Organizer

[Presentation] 熟練船長による避航操船行動の解明と模倣2022

Author(s)

Organizer

檜垣岳史大阪公立大学, 大学院工学研究科, 特別研究員(DC1)

[Presentation] 自動避航操船のための最適航路計画の策定－逆強化学習による熟練船長の模倣－2022