2017 Fiscal Year Annual Research Report
Parallel deep reinforcement learning
Publicly Offered Research
Project Area | Correspondence and Fusion of Artificial Intelligence and Brain Science |
Project/Area Number |
17H06042
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 強化学習 / 逆強化学習 / 深層学習 / 並列学習 / 重点サンプリング / 模倣学習 |
Outline of Annual Research Achievements |
本研究では深層強化学習の学習効率を改善するための並列学習法を開発することを目的としている。本年度はその予備的実験も含めて以下の成果を得た。 (1) 多重重点サンプリングを用いた方策探査法における経験再利用:データの収集分布と学習対象となる分布間の違いを調整するために、方策探査などの汎用的な強化学習では重点サンプリングによる期待値計算における分布の変換が用いられることが多い。重点サンプリングを適用する通常の問題の場合は経験分布を設計者が任意に設計できるため、推定値の分散を抑えることが容易であった。しかし強化学習における過去の経験の再利用に用いる場合、従来法では過去の学習対象の分布の系列を均等に重みづけすることがほとんどであった。そこで本研究では重み付けの割合や性能の悪いデータを棄却する方法を導入することを試みた。 (2) メタパラメータの並列的最適化:強化学習において、学習率、探査と利用のトレードオフ、将来の報酬の割引率など設計者が試行錯誤的に調整しなければならないメタパラメータがいくつかある。本研究では、異なるメタパラメータを持つ学習シミュレーションを同時実行し、その進捗状況に応じてメタパラメータを自動調整する手法の開発を試みた。 (3) 深層学習の逆強化学習への応用:これまで継続的に開発している密度比推定による逆強化学習法では、ロジスティック回帰を用いた手法や相互情報量を最小化するように定式化していたが、報酬や状態価値関数の表現が線形近似器に限定されていた。本研究ではニューラルネットワークを用いた手法に拡張した。 (4) 強化学習アルゴリズムの収束性に関する議論のために、大阪大学大学院工学研究科から博士後期課程学生の岩城諒氏をお招きし、数理的な部分に関して意見交換した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1) 分散を最小にする最適経験分布は形式的に導出できるため、過去の学習分布の混合分布でパラメータ化した経験分布との相互情報量を最小化することで、混合係数を最適化した。また、従来の方法では過去の学習分布から得られたサンプル数が同一であると仮定することが多かったが、別変数として処理することでデータの棄却が反映されるようにした。この手法をPGPE, EM法を用いた方策探査法、CMA-ES, REPS, NESなどの複数の方策探査アルゴリズムと統合し、サンプリング効率を改善することを示した。この結果は査読付き国際会議GECCO2018の口頭発表に採択された。 (2) メタパラメータを進化的手法と組み合わせることで最適化した。この手法は並列実行も容易で、(1) で開発した重点サンプリングを用いた経験再利用法との統合も可能である。Atariゲームやテトリスなどの固定したメタパラメータでは学習が困難な場合でも、提案手法によるメタパラメータの調整法が有効であることを示した。この結果もGECCO2018の口頭発表に採択された。 (3) ロジスティック回帰を用いた定式化に深層学習の技術を導入した。これにより、多くの研究者が使用しているTensorflowやChainerなどのフレームワークをそのまま利用することが可能になった。このため既存のロジスティック回帰を用いた二値分類器のネットワーク構造に制限を与えることで大規模な逆強化学習推定器を構築できた。また推定したネットワークはニューラルネットワークを用いた順強化学習と統合する場合にも利点を発揮し、標準的なフレームワークを共有化することができた。Atariゲームやオセロなどのベンチマーク課題において従来法よりもエキスパート行動を効率よく復元できることを示した。この結果はNeural Processing Lettersに採録された。
|
Strategy for Future Research Activity |
翌年度は(1)-(3)の研究成果を統合、拡張する。具体的には1つのエージェント内に感覚行動を共有する複数の学習器が混在するシステムを設計し、それらが同時に協調・競合しながら学習することで、設計者が学習器のネットワーク構造や学習アルゴリズムの選択に要する試行錯誤のプロセスを軽減する。具体的には以下のように研究を進める。 (1) これまでに研究開発した並列学習法では、経験を収集する分布が各学習器の一つを限定的に選択していたため、重点サンプリングの数値的不安定性の問題をはらんでいた。新しく開発する並列学習法では、経験分布をすべての学習器の混合分布と設計することで、多重重点サンプリングの使用ができるように修正する。これにより前年度開発した(1)の技術も導入可能となる。 (2) 各学習器が持つ多様性の要素の一つとして、メタパラメータのうち学習のしやすさや目標に大きく影響を及ぼす割引率を導入する。これによりタスクに応じて割引率の小さい学習器が選択されるようになり、学習速度を改善できる。また、割引率の修正には前年度開発した(2)の技術も導入可能となる。 (3) 各学習器の学習性能をさらに改善するために、模倣学習の技術を導入する。これまでに開発した並列学習法では、重点サンプリングによる経験再利用の技術だけを用いていたため、データの収集に用いていた分布と学習器の分布が大きく異なる場合には経験再利用の効果は限定的で、学習過程は安定するが学習速度は遅いという問題があった。そこで、提案する枠組みでは経験を収集する分布が平均的に最も性能の良い学習分布とみなせることを利用して、両者の相互情報量を最小化するような損失関数も追加する。これにより経験との相互作用を必要としない制御則の追加学習が可能となる。
|
Remarks |
T. Kozuno, E. Uchibe, and K. Doya. ArXiv: 1710.10866, 2017.
|
Research Products
(4 results)