今後の研究の推進方策 |
本研究で開発予定の手法1の実装方法については,既に調査済みであるため,H30年度の前半での手法1の実装の完成を目指す.実装が完了した後(H30年度後半)は,まずは,一定勾配の坂道環境,次に,平坦な通路と1つの段差を含む環境,最後に,平坦な通路と数段の階段を含む環境において,実装した手法により三次元の面データを生成して,その正確性について検証する.検証の結果,改善が必要であれば,その問題点を解決する方法について検討する. 本研究で開発予定の手法2に関しては,階段を含めた平地以外の走行環境や,PMVの動力学計算をシミュレートするソフトウェアの開発を引き続き行い,年内の完成を目指す. また,H29年度に開発した手法は,汎化性能(学習に用いたデータ以外の環境においても,学習によって獲得した性能を発揮できる能力)に関して,その性能が十分でない場合があるため,別の動作手順の自動獲得方法について調査研究する予定である.近年,開発が盛んに行われている(深層)強化学習アルゴリズム (DQN, Double DQN, Dueling Networks, Prioritized Experience Replay Multi-step Learning, Distributional RLなど) や,方策ベースの強化学習アルゴリズム (REINFORCE, DDQN, A3C, ACER, TRPO, PPOなど)などが本開発に適用可能か調査する予定である.
|