平成30年度は逆強化学習や自動運転に関する研究の調査,実験環境の整備,逆強化学習に用いる特徴量を抽出法の提案,および逆強化学習の比較や検討をおこなった. 研究の調査では,主に国際会議の参加や調査論文の投稿をおこなった.ストックホルムでおこなわれたIJCAI-ECAI 2018のワークショップATT2018において論文の発表をおこない,研究に関する議論を交わした.このワークショップは,メジャーな国際会議であるIJCAIに併設されていることから,非常にレベルの高い研究者が集まっていると考えられる.実際にここでの議論から様々な着想を得ることができた.また,世界各国から集まった研究の調査もでき,調査論文として内容をまとめて投稿した. 学会に発表した論文では,自動運転車の強化学習に必要な特徴量を抽出するアルゴリズムを提案した.最近の自動運転技術では,数多くの観測すべき対象物を含む環境入力に対して適切な行動出力が学習できる深層強化学習が注目されている.しかし,入出力関係がブラックボックスとなる深層強化学習を適用することは難しい.そこで提案法では,深層強化学習後のネットワークを解析することにより,学習後の自動運転方策に必要となる特徴量を抽出する.基本的なアイデアは,入力に対する出力の勾配を求めることである.勾配の値が大きいほど,出力に与える影響も大きくなると考えられるため,勾配が大きくなる特徴量が重要となる.計算機実験では,自動運転タスクのベンチマーク問題であるTORCSを用いて,提案手法の有効性を確かめた. 平成30年度の後半では,LogRegIRLやNNP-FIRLなどの逆強化学習アルゴリズムを比較し,検討していた.今後はこの検討結果をもとに研究を続ける.
|