Route planner by means of imitation learning: development and evaluation

Research Project

Project/Area Number	23H01627
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Single-year Grants
Section	一般
Review Section	Basic Section 24020:Marine engineering-related
Research Institution	Osaka Metropolitan University
Principal Investigator	橋本博公大阪公立大学, 大学院工学研究科, 教授 (30397731)
Co-Investigator(Kenkyū-buntansha)	松田秋彦国立研究開発法人水産研究・教育機構, 水産技術研究所(神栖), 主幹研究員 (10344334)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000) Fiscal Year 2023: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
Keywords	逆強化学習 / 敵対的生成ネットワーク / 自律運航船 / 航路プランナー / 実船実験
Outline of Research at the Start	深層強化学習による自動航行AIの開発が進められているが，熟練操船者が行っている高度かつ柔軟な判断を再現できる報酬の設計は困難である。本研究は，模倣学習により報酬設計の困難さを解決することを目的とする。はじめに，逆強化学習を用いて，熟練者の操船データから避航操船や離着岸操船における報酬（熟練操船者の思考や感覚）の定量化を図り，深層強化学習ベースの避航・離着岸航路プランナーを開発する。次に，敵対的生成模倣学習（GAIL）を用いることで，報酬を設計することなく，熟練者の操船データから直接的に航路プランナーを開発する。最後に，模型実験および実船実験を実施することで，両プランナーの定量的評価を行う。