Development of Asynchronous Distributed Multi-module Deep Reinforcement Learning Focusing on Different Control Periods

Research Project

Project/Area Number	23K21710
Project/Area Number (Other)	21H03527 (2021-2023)
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Multi-year Fund (2024) Single-year Grants (2021-2023)
Section	一般
Review Section	Basic Section 61050:Intelligent robotics-related
Research Institution	Advanced Telecommunications Research Institute International
Principal Investigator	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2024)
Budget Amount *help	¥16,770,000 (Direct Cost: ¥12,900,000、Indirect Cost: ¥3,870,000) Fiscal Year 2024: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000) Fiscal Year 2023: ¥8,840,000 (Direct Cost: ¥6,800,000、Indirect Cost: ¥2,040,000) Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000) Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Keywords	強化学習 / 非同期制御 / モデルベース / モデルフリー / 非同期分散型 / マルチモジュール / マルチタイムスケール / 実時間制御 / 非同期分散アーキテクチャ / 深層強化学習 / 非同期分散
Outline of Research at the Start	強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
Outline of Annual Research Achievements	これまでにシミュレーションのみで検証を行ってきた非同期分散型のマルチモジュール・マルチタイムスケール深層強化学習を実ロボットで検証するためのシステムの構築に従事した。これまでは強化学習の標準的なフレームワークである離散時間マルコフ決定過程をベースに、モデルベース強化学習とモデルフリー強化学習は「同期」分散型の実装を採用してきたが、Robot Operating System (ROS)上の実装に全面的に移行し、非同期化することに成功した。実験に用いるロボットとして7自由度マニピュレータxArm 7の手先にグリッパを搭載し、実験環境全体を観測するためのIntel RealSense D456を複数台設置し、画像を用いたピックアンドプレースを実現する環境を構築した。また開発手法と最も関連のあるスタンフォード大学が国際会議CoRLで発表した手法を我々の実験環境で再現できるようにアルゴリズムを移植した。モデルベース強化学習として、これまでは素朴なモデル予測制御に基づく強化学習を実装していたが、モデル予測経路積分型の強化学習に変更するとともに、状態遷移確率の推定を複数のモデルを利用したアンサンブル形式に拡張した。またモデルフリー強化学習はソフトアクター・クリティックをベースにしつつ、価値関数の推定を安定させるためにオフライン強化学習で導入されている分部外行動の評価を抑制する手法を導入した。開発した手法をシングルタイムスケールを用いた方法、スタンフォード大学の方法と比較し、開発手法が有意に従来法よりも制御性能が良いことを確認した。また今年度モデルフリーとモデルベースに導入した技術が学習過程の安定化に貢献していることも確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 実際のロボット上で非同期分散型の深層強化学習を実装することができ、マルチモジュール・マルチタイムスケールの有効性を示すことができた。また当初計画になかったスタンフォード大学の方法を実ロボット上で実装することもできた。論文投稿に必要なデータはほぼ得られたため、順調に進展していると考える。
Strategy for Future Research Activity	必要なデータは得られたため、海外ジャーナル論文の執筆に従事する。また近年の論文についてサーベイし、シミュレーション、もしくは実ロボットを用いた実験により比較する。また最終的な制御性能だけではなく、学習に必要なサンプル数に大幅な改善が得られていないため、モジュール間でのサンプルの転移アルゴリズムを改良する。

Report

(3 results)

Research Products
(8 results)

All 2023 2022 2021

All Presentation (8 results) (of which Invited: 1 results)

[Presentation] 偏りのあるエキスパートデータから学習する生成模倣学習の多重化2023
- Author(s)
  内部英治
- Organizer
  第41回日本ロボット学会学術講演会
- Related Report
  2023 Annual Research Report
[Presentation] 方策の積による報酬と罰からの並列強化学習2023
- Author(s)
  内部英治
- Organizer
  第33回日本神経回路学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習2023
- Author(s)
  内部英治
- Organizer
  第37回人工知能学会全国大会
- Related Report
  2023 Annual Research Report
[Presentation] Asynchronous competition and cooperation between model-based and model-free reinforcement learning systems2022
- Author(s)
  Eiji Uchibe
- Organizer
  Neuro 2022シンポジウム「適応的・予測的行動制御を支える並列的・階層的神経メカニズム」
- Related Report
  2022 Annual Research Report
- Invited
[Presentation] モデルベース・モデルフリー強化学習の調停について2022
- Author(s)
  内部英治
- Organizer
  第36回人工知能学会全国大会
- Related Report
  2022 Annual Research Report
[Presentation] 多目的強化学習のための経験再生バッファの分離2022
- Author(s)
  内部英治
- Organizer
  第40回日本ロボット学会学術講演会予稿集
- Related Report
  2022 Annual Research Report
[Presentation] 決定論的方策を学習するためのモデルベース強化学習2022
- Author(s)
  内部英治
- Organizer
  ロボティクス・メカトロニクス講演会予稿集
- Related Report
  2022 Annual Research Report
[Presentation] 深層並列強化学習2021
- Author(s)
  内部英治
- Organizer
  第15回Motor Control研究会
- Related Report
  2021 Annual Research Report

Development of Asynchronous Distributed Multi-module Deep Reinforcement Learning Focusing on Different Control Periods

Principal Investigator

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

¥16,770,000 (Direct Cost: ¥12,900,000、Indirect Cost: ¥3,870,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] 偏りのあるエキスパートデータから学習する生成模倣学習の多重化2023

Author(s)

Organizer

Related Report

[Presentation] 方策の積による報酬と罰からの並列強化学習2023

Author(s)

Organizer

Related Report

[Presentation] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習2023

Author(s)

Organizer

Related Report

[Presentation] Asynchronous competition and cooperation between model-based and model-free reinforcement learning systems2022

Author(s)

Organizer

Related Report

[Presentation] モデルベース・モデルフリー強化学習の調停について2022

Author(s)

Organizer

Related Report

[Presentation] 多目的強化学習のための経験再生バッファの分離2022

Author(s)

Organizer

Related Report

[Presentation] 決定論的方策を学習するためのモデルベース強化学習2022

Author(s)

Organizer

Related Report

[Presentation] 深層並列強化学習2021

Author(s)

Organizer

Related Report

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)