研究課題/領域番号 |
23K21710
|
補助金の研究課題番号 |
21H03527 (2021-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2021-2023) |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
16,770千円 (直接経費: 12,900千円、間接経費: 3,870千円)
2024年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2023年度: 8,840千円 (直接経費: 6,800千円、間接経費: 2,040千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 強化学習 / 非同期制御 / モデルベース / モデルフリー / 実時間制御 / マルチモジュール / マルチタイムスケール / 深層強化学習 / 非同期分散 |
研究開始時の研究の概要 |
強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
|
研究実績の概要 |
本年度は主にモデルフリー強化学習とモデルベース強化学習を協調学習させるための基準について調査した。これまでは各学習器の価値関数の大小に応じて確率的に学習器を選択する「価値関数に基づく方法」のみを用いてきた。本年度はそれに加えて、「報酬予測誤差に基づく方法」、「状態予測誤差に基づく方法」、およびそれらの重みづけで表現された選択強度を学習する「学習に基づく方法」を実装し、比較検討した。モデルフリー強化学習はDeep Deterministic Policy Gradientを、モデルベース強化学習はStochastic Value Gradientを、「学習に基づく方法」ではREINFORCEをアルゴリズムとして採用した。また評価方法としてはOpenAI Gymで提供されるFetchReach、FeatchSlide、FetchPickAndPlaceを用いた。 もっとも簡単なFetchReach課題では「価値関数に基づく方法」と「学習に基づく方法」は学習が進むにつれてモデルフリーを選択する確率が増大し、「状態予測誤差に基づく方法」ではモデルベースを選択する確率が増加する傾向がみられた。FetchReachよりも複雑なFetchSlideでは「価値関数に基づく方法」と「状態予測誤差に基づく方法」の両方でモデルフリーを選択する確率が支配的となった。FetchPickAndPlaceでは、「価値関数に基づく方法」は学習中期ではモデルベースを、学習後期ではモデルフリーを選ぶ傾向があり、これまでの研究結果を支持する結果が得られた。またすべての実験において、報酬予測誤差に基づく方法」では学習器の選択について、進捗状況に関連した傾向はみられなかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
学習器の選択に関しては、これまでに検討してきた「価値関数に基づく方法」以外の方法を調査できた。「状態予測誤差に基づく方法」も部分的には有効であること、「価値関数に基づく方法」は状態によって学習器を切り替える現在の方法では有効ではないこと、単純な「学習に基づく方法」ではほかの方法を上回る結果が得られないことが判明したことは当初予期していない結果であった。 個々のモデルフリー・モデルベース強化学習の拡張に関しては、当初計画していた方法では、遅延時間の変化にロバストではなく、また学習が困難であることも判明した。具体的には、計画時間を考慮に入れたDelay-Aware Model Predictive Control (DA-MPC)を計画通りに実装した。MPCはデータ収集モジュール、モデル学習モジュール、方策改善モジュールに大別でき、制御周期を決定するデータ収集モジュールを、先読みのステップ数Hと計画時間Tを可変とするように実装した。しかし、HとTが異なれば再学習の必要があり、実装の複雑さに見合った制御性能は得られなかった。 モデルフリーに関しても、遅延時間ステップnを引数とするDelay-Aware Markov Decision Process (DA-MDP(n))を定義し、そのうえでモデルフリー法であるSoft Actor-CriticやDeep Deterministic Policy Gradientなどを実装した。ただし、DA-MDP(n)において経験再生バッファを用いるためには、状態を拡大する必要があったため、学習のデータ効率が悪化した。また異なるnの間でデータを共有するサンプリング周波数変換を用いた経験再生バッファの共有に問題があることも判明した。 以上の点から国内会議論文などへの投稿はできたが、ジャーナル論文の投稿には至らず、研究は当初予定よりもやや遅れている。
|
今後の研究の推進方策 |
これまでの実装はOpenAI Gymで検証するためのシミュレーション環境を想定したものであり、遅延時間も一定としているなどの強い制約がある。そこで実際のロボット制御に適用するための前準備として、遅延時間が確率的に変動する実験環境を構築する。これは様々なシミュレーション環境で学習するドメイン乱拓(domain randomization)の一種とみなすことができる。 また実ロボット制御に向けたRobot Operating System (ROS)上での強化学習の実装環境を整備する。これまで状態・行動データを収集するモジュールと方策を改善する学習モジュールは分離していたが、単一のコンピュータ上にすべて実装していたため、現実的に動作させるモジュールの上限が少数に限定されていた。必要に応じてクラスタ上のサーバを用いるように修正することでこの問題を回避する。 さらに、本研究ではモデルフリーとモデルベースが個別に学習して、それらの混合によって意思決定がなされる古典的モデルを想定しているが、このような素朴な二分法を仮定することの問題点も示唆されている。本来はモデルフリーとモデルベースは独立しておらず幾つかの計算要素は共有しているべきである。たとえば経験再生バッファはモデルフリーでも利用されているが、これはノンパラメトリックなモデルを利用した学習になり、神経科学で想定されているモデルフリー強化学習とは異なっている。今後は、モデルベースとモデルフリーを有機的に統合しつつ切り替える方法を模索する予定である。
|