Project/Area Number |
23K21710
|
Project/Area Number (Other) |
21H03527 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Advanced Telecommunications Research Institute International |
Principal Investigator |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,770,000 (Direct Cost: ¥12,900,000、Indirect Cost: ¥3,870,000)
Fiscal Year 2024: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2023: ¥8,840,000 (Direct Cost: ¥6,800,000、Indirect Cost: ¥2,040,000)
Fiscal Year 2022: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2021: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | 強化学習 / 非同期制御 / モデルベース / モデルフリー / 非同期分散型 / マルチモジュール / マルチタイムスケール / 実時間制御 / 非同期分散アーキテクチャ / 深層強化学習 / 非同期分散 |
Outline of Research at the Start |
強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
|
Outline of Annual Research Achievements |
これまでにシミュレーションのみで検証を行ってきた非同期分散型のマルチモジュール・マルチタイムスケール深層強化学習を実ロボットで検証するためのシステムの構築に従事した。これまでは強化学習の標準的なフレームワークである離散時間マルコフ決定過程をベースに、モデルベース強化学習とモデルフリー強化学習は「同期」分散型の実装を採用してきたが、Robot Operating System (ROS)上の実装に全面的に移行し、非同期化することに成功した。実験に用いるロボットとして7自由度マニピュレータxArm 7の手先にグリッパを搭載し、実験環境全体を観測するためのIntel RealSense D456を複数台設置し、画像を用いたピックアンドプレースを実現する環境を構築した。また開発手法と最も関連のあるスタンフォード大学が国際会議CoRLで発表した手法を我々の実験環境で再現できるようにアルゴリズムを移植した。 モデルベース強化学習として、これまでは素朴なモデル予測制御に基づく強化学習を実装していたが、モデル予測経路積分型の強化学習に変更するとともに、状態遷移確率の推定を複数のモデルを利用したアンサンブル形式に拡張した。またモデルフリー強化学習はソフトアクター・クリティックをベースにしつつ、価値関数の推定を安定させるためにオフライン強化学習で導入されている分部外行動の評価を抑制する手法を導入した。 開発した手法をシングルタイムスケールを用いた方法、スタンフォード大学の方法と比較し、開発手法が有意に従来法よりも制御性能が良いことを確認した。また今年度モデルフリーとモデルベースに導入した技術が学習過程の安定化に貢献していることも確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
実際のロボット上で非同期分散型の深層強化学習を実装することができ、マルチモジュール・マルチタイムスケールの有効性を示すことができた。また当初計画になかったスタンフォード大学の方法を実ロボット上で実装することもできた。論文投稿に必要なデータはほぼ得られたため、順調に進展していると考える。
|
Strategy for Future Research Activity |
必要なデータは得られたため、海外ジャーナル論文の執筆に従事する。また近年の論文についてサーベイし、シミュレーション、もしくは実ロボットを用いた実験により比較する。また最終的な制御性能だけではなく、学習に必要なサンプル数に大幅な改善が得られていないため、モジュール間でのサンプルの転移アルゴリズムを改良する。
|