本研究では深層強化学習の学習効率を改善するための並列学習法を開発することを目的としている。本年度は以下の成果を得た。 (1) 多重重点サンプリングと自己模倣を用いた並列強化学習:適切なネットワーク構造と学習アルゴリズムを選択するためには、従来実験者が試行錯誤的に予備実験を繰り返す必要があった。開発した学習法CRAILは複数の強化学習モジュールを同時並列的かつ協調・競合的に学習させることで、自動的に性能の良い組み合わせを状況に応じて選択する。強化学習モジュール間での収集データを共用するためには前年度に開発した多重重点サンプリングを用いた。また合成方策との模倣学習を導入することで、現在の学習モジュールの方策が合成方策のモジュールと著しく異なっている場合にも学習が行われるようにした。これにより、以前に開発した並列強化学習法CLISと比較し学習効率を大幅に改善することができた。またCRAILはロボットの物理パラメータの変化にも動的に学習モジュールを切り替えることで対処できることを示した。 (2) 報酬の符号に応じた並列学習法の提案:ベルマン最適方程式を用いた強化学習では、状態遷移後の価値を評価するためにmax演算子を用いるため、報酬値が負の場合にうまく出伝播されず将来受け取る大きなリスクを回避することができないという問題があった。そこでMaxPainと呼ばれる並列学習法を開発したが、ニューラルネットワークを用いない単純な問題に対してのみ適用していた。そこでMaxPainを深層強化学習化したDeep MaxPainを開発し、ロボットナビゲーションなどの大規模な問題に適用した。Deep MaxPainでは二つのネットワークの合成法として価値関数の合成と方策の合成の二つを検討した。Deep MaxPainはHRAなど従来法よりもリスクを安全に回避しつつサンプル効率を改善できた。
|