遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発

研究課題

研究課題/領域番号	23K21710
補助金の研究課題番号	21H03527 (2021-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2021-2023)
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	株式会社国際電気通信基礎技術研究所
研究代表者	内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	16,770千円 (直接経費: 12,900千円、間接経費: 3,870千円) 2024年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円) 2023年度: 8,840千円 (直接経費: 6,800千円、間接経費: 2,040千円) 2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円) 2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
キーワード	強化学習 / 非同期制御 / モデルベース / モデルフリー / 非同期分散型 / マルチモジュール / マルチタイムスケール / 実時間制御 / 非同期分散アーキテクチャ / 深層強化学習 / 非同期分散
研究開始時の研究の概要	強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
研究実績の概要	これまでにシミュレーションのみで検証を行ってきた非同期分散型のマルチモジュール・マルチタイムスケール深層強化学習を実ロボットで検証するためのシステムの構築に従事した。これまでは強化学習の標準的なフレームワークである離散時間マルコフ決定過程をベースに、モデルベース強化学習とモデルフリー強化学習は「同期」分散型の実装を採用してきたが、Robot Operating System (ROS)上の実装に全面的に移行し、非同期化することに成功した。実験に用いるロボットとして7自由度マニピュレータxArm 7の手先にグリッパを搭載し、実験環境全体を観測するためのIntel RealSense D456を複数台設置し、画像を用いたピックアンドプレースを実現する環境を構築した。また開発手法と最も関連のあるスタンフォード大学が国際会議CoRLで発表した手法を我々の実験環境で再現できるようにアルゴリズムを移植した。モデルベース強化学習として、これまでは素朴なモデル予測制御に基づく強化学習を実装していたが、モデル予測経路積分型の強化学習に変更するとともに、状態遷移確率の推定を複数のモデルを利用したアンサンブル形式に拡張した。またモデルフリー強化学習はソフトアクター・クリティックをベースにしつつ、価値関数の推定を安定させるためにオフライン強化学習で導入されている分部外行動の評価を抑制する手法を導入した。開発した手法をシングルタイムスケールを用いた方法、スタンフォード大学の方法と比較し、開発手法が有意に従来法よりも制御性能が良いことを確認した。また今年度モデルフリーとモデルベースに導入した技術が学習過程の安定化に貢献していることも確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由実際のロボット上で非同期分散型の深層強化学習を実装することができ、マルチモジュール・マルチタイムスケールの有効性を示すことができた。また当初計画になかったスタンフォード大学の方法を実ロボット上で実装することもできた。論文投稿に必要なデータはほぼ得られたため、順調に進展していると考える。
今後の研究の推進方策	必要なデータは得られたため、海外ジャーナル論文の執筆に従事する。また近年の論文についてサーベイし、シミュレーション、もしくは実ロボットを用いた実験により比較する。また最終的な制御性能だけではなく、学習に必要なサンプル数に大幅な改善が得られていないため、モジュール間でのサンプルの転移アルゴリズムを改良する。

報告書

(3件)

研究成果
(8件)

すべて 2023 2022 2021

すべて学会発表 (8件) (うち招待講演 1件)

[学会発表] 偏りのあるエキスパートデータから学習する生成模倣学習の多重化2023
- 著者名/発表者名
  内部英治
- 学会等名
  第41回日本ロボット学会学術講演会
- 関連する報告書
  2023 実績報告書
[学会発表] 方策の積による報酬と罰からの並列強化学習2023
- 著者名/発表者名
  内部英治
- 学会等名
  第33回日本神経回路学会全国大会
- 関連する報告書
  2023 実績報告書
[学会発表] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習2023
- 著者名/発表者名
  内部英治
- 学会等名
  第37回人工知能学会全国大会
- 関連する報告書
  2023 実績報告書
[学会発表] Asynchronous competition and cooperation between model-based and model-free reinforcement learning systems2022
- 著者名/発表者名
  Eiji Uchibe
- 学会等名
  Neuro 2022シンポジウム「適応的・予測的行動制御を支える並列的・階層的神経メカニズム」
- 関連する報告書
  2022 実績報告書
- 招待講演
[学会発表] モデルベース・モデルフリー強化学習の調停について2022
- 著者名/発表者名
  内部英治
- 学会等名
  第36回人工知能学会全国大会
- 関連する報告書
  2022 実績報告書
[学会発表] 多目的強化学習のための経験再生バッファの分離2022
- 著者名/発表者名
  内部英治
- 学会等名
  第40回日本ロボット学会学術講演会予稿集
- 関連する報告書
  2022 実績報告書
[学会発表] 決定論的方策を学習するためのモデルベース強化学習2022
- 著者名/発表者名
  内部英治
- 学会等名
  ロボティクス・メカトロニクス講演会予稿集
- 関連する報告書
  2022 実績報告書
[学会発表] 深層並列強化学習2021
- 著者名/発表者名
  内部英治
- 学会等名
  第15回Motor Control研究会
- 関連する報告書
  2021 実績報告書

遅延を考慮した非同期分散型マルチモジュール・タイムスケール深層強化学習の開発

研究代表者

内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)

16,770千円 (直接経費: 12,900千円、間接経費: 3,870千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] 偏りのあるエキスパートデータから学習する生成模倣学習の多重化2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 方策の積による報酬と罰からの並列強化学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Asynchronous competition and cooperation between model-based and model-free reinforcement learning systems2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] モデルベース・モデルフリー強化学習の調停について2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 多目的強化学習のための経験再生バッファの分離2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 決定論的方策を学習するためのモデルベース強化学習2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層並列強化学習2021

著者名/発表者名

学会等名

関連する報告書

内部英治株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)