• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Development of Asynchronous Distributed Multi-module Deep Reinforcement Learning Focusing on Different Control Periods

Research Project

Project/Area Number 21H03527
Allocation TypeSingle-year Grants
Research InstitutionAdvanced Telecommunications Research Institute International

Principal Investigator

内部 英治  株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

Project Period (FY) 2021-04-01 – 2025-03-31
Keywords強化学習 / 非同期分散型 / マルチモジュール / マルチタイムスケール
Outline of Annual Research Achievements

これまでにシミュレーションのみで検証を行ってきた非同期分散型のマルチモジュール・マルチタイムスケール深層強化学習を実ロボットで検証するためのシステムの構築に従事した。これまでは強化学習の標準的なフレームワークである離散時間マルコフ決定過程をベースに、モデルベース強化学習とモデルフリー強化学習は「同期」分散型の実装を採用してきたが、Robot Operating System (ROS)上の実装に全面的に移行し、非同期化することに成功した。実験に用いるロボットとして7自由度マニピュレータxArm 7の手先にグリッパを搭載し、実験環境全体を観測するためのIntel RealSense D456を複数台設置し、画像を用いたピックアンドプレースを実現する環境を構築した。また開発手法と最も関連のあるスタンフォード大学が国際会議CoRLで発表した手法を我々の実験環境で再現できるようにアルゴリズムを移植した。
モデルベース強化学習として、これまでは素朴なモデル予測制御に基づく強化学習を実装していたが、モデル予測経路積分型の強化学習に変更するとともに、状態遷移確率の推定を複数のモデルを利用したアンサンブル形式に拡張した。またモデルフリー強化学習はソフトアクター・クリティックをベースにしつつ、価値関数の推定を安定させるためにオフライン強化学習で導入されている分部外行動の評価を抑制する手法を導入した。
開発した手法をシングルタイムスケールを用いた方法、スタンフォード大学の方法と比較し、開発手法が有意に従来法よりも制御性能が良いことを確認した。また今年度モデルフリーとモデルベースに導入した技術が学習過程の安定化に貢献していることも確認した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

実際のロボット上で非同期分散型の深層強化学習を実装することができ、マルチモジュール・マルチタイムスケールの有効性を示すことができた。また当初計画になかったスタンフォード大学の方法を実ロボット上で実装することもできた。論文投稿に必要なデータはほぼ得られたため、順調に進展していると考える。

Strategy for Future Research Activity

必要なデータは得られたため、海外ジャーナル論文の執筆に従事する。また近年の論文についてサーベイし、シミュレーション、もしくは実ロボットを用いた実験により比較する。また最終的な制御性能だけではなく、学習に必要なサンプル数に大幅な改善が得られていないため、モジュール間でのサンプルの転移アルゴリズムを改良する。

  • Research Products

    (3 results)

All 2023

All Presentation (3 results)

  • [Presentation] 偏りのあるエキスパートデータから学習する生成模倣学習の多重化2023

    • Author(s)
      内部英治
    • Organizer
      第41回日本ロボット学会学術講演会
  • [Presentation] 方策の積による報酬と罰からの並列強化学習2023

    • Author(s)
      内部英治
    • Organizer
      第33回 日本神経回路学会全国大会
  • [Presentation] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習2023

    • Author(s)
      内部英治
    • Organizer
      第37回人工知能学会全国大会

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi