Parallel deep reinforcement learning
Publicly Offered Research
Project Area | Correspondence and Fusion of Artificial Intelligence and Brain Science |
Project/Area Number |
17H06042
|
Research Category |
Grant-in-Aid for Scientific Research on Innovative Areas (Research in a proposed research area)
|
Allocation Type | Single-year Grants |
Review Section |
Complex systems
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥12,220,000 (Direct Cost: ¥9,400,000、Indirect Cost: ¥2,820,000)
Fiscal Year 2018: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Fiscal Year 2017: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
|
Keywords | 強化学習 / 深層学習 / 並列学習 / 重点サンプリング / 模倣学習 / 逆強化学習 / 機械学習 |
Outline of Annual Research Achievements |
本研究では深層強化学習の学習効率を改善するための並列学習法を開発することを目的としている。本年度は以下の成果を得た。 (1) 多重重点サンプリングと自己模倣を用いた並列強化学習:適切なネットワーク構造と学習アルゴリズムを選択するためには、従来実験者が試行錯誤的に予備実験を繰り返す必要があった。開発した学習法CRAILは複数の強化学習モジュールを同時並列的かつ協調・競合的に学習させることで、自動的に性能の良い組み合わせを状況に応じて選択する。強化学習モジュール間での収集データを共用するためには前年度に開発した多重重点サンプリングを用いた。また合成方策との模倣学習を導入することで、現在の学習モジュールの方策が合成方策のモジュールと著しく異なっている場合にも学習が行われるようにした。これにより、以前に開発した並列強化学習法CLISと比較し学習効率を大幅に改善することができた。またCRAILはロボットの物理パラメータの変化にも動的に学習モジュールを切り替えることで対処できることを示した。 (2) 報酬の符号に応じた並列学習法の提案:ベルマン最適方程式を用いた強化学習では、状態遷移後の価値を評価するためにmax演算子を用いるため、報酬値が負の場合にうまく出伝播されず将来受け取る大きなリスクを回避することができないという問題があった。そこでMaxPainと呼ばれる並列学習法を開発したが、ニューラルネットワークを用いない単純な問題に対してのみ適用していた。そこでMaxPainを深層強化学習化したDeep MaxPainを開発し、ロボットナビゲーションなどの大規模な問題に適用した。Deep MaxPainでは二つのネットワークの合成法として価値関数の合成と方策の合成の二つを検討した。Deep MaxPainはHRAなど従来法よりもリスクを安全に回避しつつサンプル効率を改善できた。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Report
(2 results)
Research Products
(16 results)