模倣学習による航路プランナーの開発と評価

研究課題

研究課題/領域番号	23H01627
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分24020:船舶海洋工学関連
研究機関	大阪公立大学
研究代表者	橋本博公大阪公立大学, 大学院工学研究科, 教授 (30397731)
研究分担者	松田秋彦国立研究開発法人水産研究・教育機構, 水産技術研究所(神栖), 主幹研究員 (10344334)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円) 2023年度: 7,410千円 (直接経費: 5,700千円、間接経費: 1,710千円)
キーワード	逆強化学習 / 敵対的生成ネットワーク / 自律運航船 / 航路プランナー / 実船実験
研究開始時の研究の概要	深層強化学習による自動航行AIの開発が進められているが，熟練操船者が行っている高度かつ柔軟な判断を再現できる報酬の設計は困難である。本研究は，模倣学習により報酬設計の困難さを解決することを目的とする。はじめに，逆強化学習を用いて，熟練者の操船データから避航操船や離着岸操船における報酬（熟練操船者の思考や感覚）の定量化を図り，深層強化学習ベースの避航・離着岸航路プランナーを開発する。次に，敵対的生成模倣学習（GAIL）を用いることで，報酬を設計することなく，熟練者の操船データから直接的に航路プランナーを開発する。最後に，模型実験および実船実験を実施することで，両プランナーの定量的評価を行う。