2021 Fiscal Year Annual Research Report
Development of Asynchronous Distributed Multi-module Deep Reinforcement Learning Focusing on Different Control Periods
Project/Area Number |
21H03527
|
Allocation Type | Single-year Grants |
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | 強化学習 / 非同期制御 / 実時間制御 / マルチモジュール / マルチタイムスケール |
Outline of Annual Research Achievements |
本年度は主にモデルフリー強化学習とモデルベース強化学習を協調学習させるための基準について調査した。これまでは各学習器の価値関数の大小に応じて確率的に学習器を選択する「価値関数に基づく方法」のみを用いてきた。本年度はそれに加えて、「報酬予測誤差に基づく方法」、「状態予測誤差に基づく方法」、およびそれらの重みづけで表現された選択強度を学習する「学習に基づく方法」を実装し、比較検討した。モデルフリー強化学習はDeep Deterministic Policy Gradientを、モデルベース強化学習はStochastic Value Gradientを、「学習に基づく方法」ではREINFORCEをアルゴリズムとして採用した。また評価方法としてはOpenAI Gymで提供されるFetchReach、FeatchSlide、FetchPickAndPlaceを用いた。 もっとも簡単なFetchReach課題では「価値関数に基づく方法」と「学習に基づく方法」は学習が進むにつれてモデルフリーを選択する確率が増大し、「状態予測誤差に基づく方法」ではモデルベースを選択する確率が増加する傾向がみられた。FetchReachよりも複雑なFetchSlideでは「価値関数に基づく方法」と「状態予測誤差に基づく方法」の両方でモデルフリーを選択する確率が支配的となった。FetchPickAndPlaceでは、「価値関数に基づく方法」は学習中期ではモデルベースを、学習後期ではモデルフリーを選ぶ傾向があり、これまでの研究結果を支持する結果が得られた。またすべての実験において、報酬予測誤差に基づく方法」では学習器の選択について、進捗状況に関連した傾向はみられなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
学習器の選択に関しては、これまでに検討してきた「価値関数に基づく方法」以外の方法を調査できた。「状態予測誤差に基づく方法」も部分的には有効であること、「価値関数に基づく方法」は状態によって学習器を切り替える現在の方法では有効ではないこと、単純な「学習に基づく方法」ではほかの方法を上回る結果が得られないことが判明したことは当初予期していない結果であった。 個々のモデルフリー・モデルベース強化学習の拡張に関しては、当初計画していた方法では、遅延時間の変化にロバストではなく、また学習が困難であることも判明した。具体的には、計画時間を考慮に入れたDelay-Aware Model Predictive Control (DA-MPC)を計画通りに実装した。MPCはデータ収集モジュール、モデル学習モジュール、方策改善モジュールに大別でき、制御周期を決定するデータ収集モジュールを、先読みのステップ数Hと計画時間Tを可変とするように実装した。しかし、HとTが異なれば再学習の必要があり、実装の複雑さに見合った制御性能は得られなかった。 モデルフリーに関しても、遅延時間ステップnを引数とするDelay-Aware Markov Decision Process (DA-MDP(n))を定義し、そのうえでモデルフリー法であるSoft Actor-CriticやDeep Deterministic Policy Gradientなどを実装した。ただし、DA-MDP(n)において経験再生バッファを用いるためには、状態を拡大する必要があったため、学習のデータ効率が悪化した。また異なるnの間でデータを共有するサンプリング周波数変換を用いた経験再生バッファの共有に問題があることも判明した。 以上の点から国内会議論文などへの投稿はできたが、ジャーナル論文の投稿には至らず、研究は当初予定よりもやや遅れている。
|
Strategy for Future Research Activity |
これまでの実装はOpenAI Gymで検証するためのシミュレーション環境を想定したものであり、遅延時間も一定としているなどの強い制約がある。そこで実際のロボット制御に適用するための前準備として、遅延時間が確率的に変動する実験環境を構築する。これは様々なシミュレーション環境で学習するドメイン乱拓(domain randomization)の一種とみなすことができる。 また実ロボット制御に向けたRobot Operating System (ROS)上での強化学習の実装環境を整備する。これまで状態・行動データを収集するモジュールと方策を改善する学習モジュールは分離していたが、単一のコンピュータ上にすべて実装していたため、現実的に動作させるモジュールの上限が少数に限定されていた。必要に応じてクラスタ上のサーバを用いるように修正することでこの問題を回避する。 さらに、本研究ではモデルフリーとモデルベースが個別に学習して、それらの混合によって意思決定がなされる古典的モデルを想定しているが、このような素朴な二分法を仮定することの問題点も示唆されている。本来はモデルフリーとモデルベースは独立しておらず幾つかの計算要素は共有しているべきである。たとえば経験再生バッファはモデルフリーでも利用されているが、これはノンパラメトリックなモデルを利用した学習になり、神経科学で想定されているモデルフリー強化学習とは異なっている。今後は、モデルベースとモデルフリーを有機的に統合しつつ切り替える方法を模索する予定である。
|
Research Products
(1 results)