2022 Fiscal Year Annual Research Report
Development of Collision Avoidance System for Maritime Autonomous Surface Ship: Imitating and Surpassing Human Experts by Deep Inverse Reinforcement Learning
Project/Area Number |
22J20009
|
Allocation Type | Single-year Grants |
Research Institution | Osaka Metropolitan University |
Principal Investigator |
檜垣 岳史 大阪公立大学, 大学院工学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2022-04-22 – 2025-03-31
|
Keywords | 自動運航船 / 避航操船 / 逆強化学習 / 模倣学習 / 航路計画 / 熟練船長 / 海上衝突予防法 / 衝突危険領域 |
Outline of Annual Research Achievements |
本研究課題では、人間の経験に従って実行される避航操船行動の定量化を図るとともに、熟練船長の感覚に基づく避航航路の獲得に取り組んだ。 まず、最大エントロピー逆強化学習を用いて任意の避航航路から最適報酬を導出する手法を提案した。その検証のため、Dangerous Area of Collision (DAC)と呼ばれる衝突危険領域を避けるようなサンプル航路をあらかじめ生成し、その航路を逆強化学習の入力とすることで報酬関数を推定した。推定された報酬分布がDACの形状と良く一致することから、操船の感覚を定量化する手段として最大エントロピー逆強化学習が有効であることを示した。続いて、一般商船の船長経験者の協力のもと、船長による操船シミュレーション実験を実施した。実験で得られた操船航路をエキスパートデータとし報酬関数を導出することで、熟練船長による避航操船の特徴を明らかにした。さらに、得られる報酬が最大となるような経路探索を行うことで熟練船長の感覚に基づく最適航路計画を提案し、今津問題と呼ばれる避航操船のテストシナリオを用いて最適航路計画の有用性を示した。一連の研究成果は日本船舶海洋工学会論文集36巻に掲載されている。 他方、研究の遂行にあたり、逆強化学習の適用範囲が小規模かつ離散的な状態空間に限られるという課題に直面した。そこで、強化学習と逆強化学習の2段階最適化問題を1つのミニマックス問題として定式化した敵対的生成模倣学習を導入し、大規模連続状態空間に適用可能な避航航路計画手法を開発した。本年度は、相手船1隻に対する避航航路のサンプルデータが与えられた際、本手法によって所与の航路を精度良く模倣できること確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、熟練船長の避航操船データに逆強化学習を適用することで船長の操船感覚に基づく最適報酬を導出するとともに、最適報酬に基づく航路計画を策定することができた。加えて、最大エントロピー逆強化学習に内在する適用限界に着目し、敵対的生成模倣学習を用いた避航航路計画手法を開発した。これは当初の計画を前倒して得られた成果である。他方、当初計画していた熟練者の感覚に即した評価指標の提案については未達成であり、研究を加速させていく必要がある。
|
Strategy for Future Research Activity |
次年度は、敵対的生成模倣学習に基づく避航航路計画手法を輻輳海域や制限水域などにも適用できるよう拡張し、汎用的な手法を構築する。さらに、熟練船長の感覚に基づく避航操船の評価指標の確立に取り組む。
|
Research Products
(4 results)