Development and evaluation of route planner using imitation learning
Project/Area Number |
23K26321
|
Project/Area Number (Other) |
23H01627 (2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2023) |
Section | 一般 |
Review Section |
Basic Section 24020:Marine engineering-related
|
Research Institution | Osaka Metropolitan University |
Principal Investigator |
橋本 博公 大阪公立大学, 大学院工学研究科, 教授 (30397731)
|
Co-Investigator(Kenkyū-buntansha) |
松田 秋彦 国立研究開発法人水産研究・教育機構, 水産技術研究所(神栖), 主幹研究員 (10344334)
若林 伸和 神戸大学, 海事科学研究科, 教授 (60242351)
檜垣 岳史 大阪公立大学, 大学院工学研究科, 助教 (71000014)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000)
Fiscal Year 2025: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2024: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
Fiscal Year 2023: ¥7,410,000 (Direct Cost: ¥5,700,000、Indirect Cost: ¥1,710,000)
|
Keywords | 模倣学習 / 逆強化学習 / 自律運航船 / 航路プランナー / 実船実験 / 敵対的模倣学習 / 深層強化学習 / 人間らしい操船 / 敵対的生成ネットワーク |
Outline of Research at the Start |
深層強化学習による自律航行AIの開発が進められているが,熟練操船者が行っている高度かつ柔軟な判断を再現できる報酬の設計は困難である。本研究は,報酬設計の困難さを解決することを目的とする。はじめに,逆強化学習を用いて,熟練者の操船データから避航操船や離着岸操船における報酬の可視化を図り,深層強化学習ベースの航路プランナーを開発する。次に,敵対的模倣学習を用いることで,報酬を設計することなく,熟練者の操船データから直接的に航路プランナーを開発する。最後に,模型実験や実船実験を実施することで,両プランナーの定量的評価を行う。
|
Outline of Annual Research Achievements |
船舶の自律航行は船員不足の解消や海難事故の防止のために不可欠な技術である。現在,深層強化学習ベースの操船AIの開発が進められているが,学習で得られる行動方策は人間が設計する報酬関数に依存するため,熟練操船者が行っている高度かつ柔軟な判断を再現できる報酬の設計が必要となる。 令和5年度は,GAIL(敵対的生成模倣学習)を用いることで,報酬を設計することなく,熟練者の操船データから人間らしい避航航路を作成する手法を提案した。さらに,従来型の衝突危険度評価指標を用いて模倣航路プランナーの避航操船結果を検証し,先行研究の操船AIと比べてより安全で効率的な避航操船が可能であることを示した。着桟操船については,AIS (船舶自動識別装置)から得られた船舶の運航データを教師とし,TRAIL(タスク関連付き敵対的模倣学習)を適用することで,実際の着桟航路を精度良く模倣できることを示した。さらに,教師データとシミュレーションの時間軸を逆転させて模倣学習を行うことで,終端状態,すなわち接岸時における拘束条件を課すことを考案した。本手法は,既往研究の課題であるリアルタイム性と終端状態における拘束の双方を達成しうるアプローチである。 深層強化学習による避航航路プランナーの開発に関しては,ホワイトボックス化に取り組んだ。はじめに,学習モデルの信頼度を評価する手法を提案し,簡単なタスクに対してその有効性を示した。次に,AIの判断根拠と行動意図の可視化のための手法を考案した。現在は,両者の有効性についてシミュレーションベースで評価を実施中である。さらに,将来的な実船への搭載を念頭に,モデル誤差の影響を低減するための模型船を用いた転移学習についても検討を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
初年度から,敵対的模倣学習を用いた避航航路プランナーと着桟航路プランナーを開発できたこと,いずれのプランナーも既往研究の課題解決に貢献する結果が得られたことから,当初の計画以上の研究進捗であるといえる。深層強化学習ベースの航路プランナーについても,ホワイトボックス化のための新たな手法を提案しており,十分な成果が得られたと評価できる。
|
Strategy for Future Research Activity |
今年度の成果を発展させる形で,模倣学習ベースおよび深層強化学習ベースの航路プランナーの高度化を試みる。そのうえで,模型船および実船を用いた有効性の実証を進めていく予定である。また,船長ら熟練操船者による離着桟操船時のデータ入手について模索し,逆強化学習を適用して船長が考える好ましい操船とは何かを明らかにしたい。
|
Report
(1 results)
Research Products
(4 results)