研究領域 | 人工知能と脳科学の対照と融合 |
研究課題/領域番号 |
19H05001
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2019-04-01 – 2021-03-31
|
キーワード | 強化学習 / モデルフリー / モデルベース / 並列学習 |
研究実績の概要 |
本研究では深層強化学習の学習効率を改善するための並列学習法CRAILにモデルベース学習機構を導入することでさらにサンプル効率を改善することを目的としている。本年度は以下の成果を得た。 (1) 学習モジュールとしてモデルベース強化学習を導入した。一つはガウシアンプロセスを用いてモデルを学習しつつ、方策勾配を解析的に計算するPILCO、もう一つはニューラルネットワークを用いてモデルを学習しつつ、その勾配情報を利用するStochastic Value Gradientである。モデルフリー法はSoft Actor-Criticとガウシアンプロセスを用いたモデルからのサンプルを利用するSoft Actor-Criticである。個々の学習アルゴリズムを使用するよりも学習効率を大幅に改善することができた。 (2) 強化学習において、最適行動価値関数や最適方策は非線形ベルマン方程式の解として得られるため、価値関数の足し合わせは意味を持たない。しかし近年エントロピ正則化の下で報酬の足し合わせから導出される真の価値関数とそれぞれの価値関数の足し合わせの間の不等式が導出された。本研究では不等式を一般化し、真の価値関数とのギャップが大きい場合にのみ追加の学習を実施する方法を提案した。またこの結果を用い、MaxPainの方策の合成法の拡張を試みた。 (3) オフ方策型深層強化学習では、学習を安定化させるために学習ネットワークの重みの移動平均を重みとするターゲットネットワークが使用される。ターゲットネットワークは学習ネットワークの目標値に利用されることが多かったが、誤差の伝搬が遅れ学習効率がさらに悪化することが指摘されていた。本研究ではターゲットネットワークを制約条件としてQ学習に追加したConstrained DQNを提案し、ベンチマーク課題を用いて従来の方法よりもサンプル効率が改善されたことを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
(1) 通常の経験再生を用いて学習するExperience Replay Soft Actor-Critic (ER-SAC)、ガウシアンプロセスで近似したモデルから学習するGP-SAC、ガウシアンプロセスモデルを使ったモデルベース法PILCO、ニューラルネットワークモデルを用いたモデルベース法Stochastic Value Gradienをモジュールとして実装したMB-CRAILを開発し、Mujoco制御課題を通して学習効率が改善されることをと示した。この結果は国内会議である人工知能学会全国大会2020に投稿し採択された。 (2) 報酬の合成から導出される信の行動価値関数をQ*、個々の価値関数の合成をQsumとするとQsum≧Q*≧Qsum-C*の関係がある。C*はソフトベルマン方程式の解で、報酬は個々の方策から計算される。モジュール数が2で結合重みが1/2のとき、報酬は方策のRenyiダイバージェンスと一致する。この不等式をもとにC*のノルムが閾値以上の場合に安全のための回避行動を選択するSoft MaxPainを開発した。移動ロボットを用いたナビゲーション課題に適用し、結果を日本神経回路学会2019でポスター発表した。 (3) ターゲットネットワークと学習するネットワークの二乗誤差に関する制約条件をQ学習に導入した。これにより二つのネットワークのギャップが大きくない場合は通常のQ学習として重みは更新され、本来の強化学習の利点であるブートストラップの効果を得ることができた。提案したConstrained DQNはAtariゲームやMujoco制御課題など様々なベンチマークを通して検証し、DQNやDouble DQN、Soft Q-learningよりも学習効率を改善することができた。結果はFrontiers in Neuroroboticsに採録された。
|
今後の研究の推進方策 |
本年度は進捗状況(1)-(3)の研究成果を統合、拡張する。 (1) CRAILでは方策間での自己模倣によって学習初期の効率を大幅に改善できることをしめした(Uchibe, Frontiers in Neurorobotics 2018)が、MB-CRAILでは未実装である。今後は方策間の自己模倣だけでなく、モデル学習器(ガウシアンプロセスとニューラルネットワーク)の間の自己模倣によって、モデル学習の効率も改善できるかどうか検証する。 (2) 現在のMB-CRAILではER-SACとGP-SACの違いが明確ではなかった。そのため今後は二種類のモデル利用を検討する。一つはモデルの予測誤差に応じて学習率などのハイパーパラメータを調整しつつ、不確かな場合にはモジュール選択にペナルティを課す方法である。もう一つはモデルを使って複数ステップのロールアウトを計算することで学習効率を改善する方法である。これらはGP-SACでのみ実現可能である。 (3) これまではCRAIL、MB-CRAILはシミュレーション上での評価にとどまり実ロボットでの評価は行っていなかった。実ロボットでの運用では1ステップ当たりの計算時間も重要であり、CRAILの前身であるCLISでは計算時間を考慮することで計算時間の短い学習モジュールも学習後期で利用される結果が得られている。そこでMB-CRAILで実ロボット実験を実施し、同様の結果が得られるか検証する。 (4) Soft MaxPainでは動的方策計画法のように方策間のKLダイバージェンスが導入可能である。そこで負の報酬を最小化する方策、つまり最悪の方策π-をSoft Q learningで学習し、正の報酬を最大化する方策π+を報酬r+H(π+)+KL(π+|π-)のもとで学習する。報酬第3項は最悪の方策をできるだけ避ける方策を評価することに相当する。
|