研究課題/領域番号 |
23K21710
|
補助金の研究課題番号 |
21H03527 (2021-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2021-2023) |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
16,770千円 (直接経費: 12,900千円、間接経費: 3,870千円)
2024年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2023年度: 8,840千円 (直接経費: 6,800千円、間接経費: 2,040千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | 強化学習 / 非同期制御 / モデルベース / モデルフリー / 非同期分散型 / マルチモジュール / マルチタイムスケール / 実時間制御 / 非同期分散アーキテクチャ / 深層強化学習 / 非同期分散 |
研究開始時の研究の概要 |
強化学習は離散時間のマルコフ決定過程としてモデル化されることが多く、学習・推論アルゴリズムの時間刻みは常に一定と仮定され、物理時間との対応はあまり考慮されてこなかった。これは実ロボットへの応用や、計算量の異なる複数の強化学習アルゴリズムを切り替える並列学習法では致命的な問題である。本研究では発生しうる遅延を明示的に考慮したモデルフリー・モデルベース強化学習法を開発し、理想的な離散時間系システムと現実的な非同期マルチレートシステムのギャップを軽減する。さらに両手法を組み合わせた、非同期分散型のモデルベース・モデルフリー協働学習法を開発する。
|
研究実績の概要 |
これまでにシミュレーションのみで検証を行ってきた非同期分散型のマルチモジュール・マルチタイムスケール深層強化学習を実ロボットで検証するためのシステムの構築に従事した。これまでは強化学習の標準的なフレームワークである離散時間マルコフ決定過程をベースに、モデルベース強化学習とモデルフリー強化学習は「同期」分散型の実装を採用してきたが、Robot Operating System (ROS)上の実装に全面的に移行し、非同期化することに成功した。実験に用いるロボットとして7自由度マニピュレータxArm 7の手先にグリッパを搭載し、実験環境全体を観測するためのIntel RealSense D456を複数台設置し、画像を用いたピックアンドプレースを実現する環境を構築した。また開発手法と最も関連のあるスタンフォード大学が国際会議CoRLで発表した手法を我々の実験環境で再現できるようにアルゴリズムを移植した。 モデルベース強化学習として、これまでは素朴なモデル予測制御に基づく強化学習を実装していたが、モデル予測経路積分型の強化学習に変更するとともに、状態遷移確率の推定を複数のモデルを利用したアンサンブル形式に拡張した。またモデルフリー強化学習はソフトアクター・クリティックをベースにしつつ、価値関数の推定を安定させるためにオフライン強化学習で導入されている分部外行動の評価を抑制する手法を導入した。 開発した手法をシングルタイムスケールを用いた方法、スタンフォード大学の方法と比較し、開発手法が有意に従来法よりも制御性能が良いことを確認した。また今年度モデルフリーとモデルベースに導入した技術が学習過程の安定化に貢献していることも確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実際のロボット上で非同期分散型の深層強化学習を実装することができ、マルチモジュール・マルチタイムスケールの有効性を示すことができた。また当初計画になかったスタンフォード大学の方法を実ロボット上で実装することもできた。論文投稿に必要なデータはほぼ得られたため、順調に進展していると考える。
|
今後の研究の推進方策 |
必要なデータは得られたため、海外ジャーナル論文の執筆に従事する。また近年の論文についてサーベイし、シミュレーション、もしくは実ロボットを用いた実験により比較する。また最終的な制御性能だけではなく、学習に必要なサンプル数に大幅な改善が得られていないため、モジュール間でのサンプルの転移アルゴリズムを改良する。
|