研究課題/領域番号 |
21H03527
|
配分区分 | 補助金 |
研究機関 | 株式会社国際電気通信基礎技術研究所 |
研究代表者 |
内部 英治 株式会社国際電気通信基礎技術研究所, 脳情報通信総合研究所, 主幹研究員 (20426571)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | 強化学習 / マルチモジュール / マルチタイムスケール / 非同期分散アーキテクチャ |
研究実績の概要 |
モデルベース強化学習とモデルフリー強化学習を協調させるモジュール型アーキテクチャに対して、意思決定に必要な計算時間の違いを反映させた非同期分散型のアルゴリズムを開発した。モデルベース強化学習は様々な方法を検討した結果、非線形モデル予測制御にモデル学習を追加したものを採用し、予測長を変化させることで意思決定に要する時間を調整可能なものとした、モデルフリー強化学習は学習過程が安定で広く他の研究グループで用いられているソフトアクタークリティックを採用した。 ただしモジュールの方策はマルチタイムスケール対応する必要があり、これまでに開発してきたサンプリング周波数修正による方法では各モジュールが収集したデータを転用できないことがわかった。そのためデータの共用はモデルフリー強化学習の価値関数の学習とモデルベース強化学習のモデル学習の間で行うよう修正し、サンプリング周波数による修正モジュールを必要としない簡単化されたアーキテクチャを開発することができた。 開発した手法をこれまでの非同期分散型アーキテクチャ、同期型アーキテクチャなどと比較し、シミュレーション上で学習に必要なデータ数と学習された制御方策を用いた制御性能の両方で大幅に改善することができた。これらの結果は人工知能学会やNeuroで報告した。 国際ジャーナル投稿の準備を進めたが、後述するスタンフォード大学の研究との差異を明確にする必要が生じたため、彼らの研究を精査しアルゴリズム上での問題を洗い出した。また彼らの手法を我々のシステム上で実装した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
当初計画ではシミュレーションの結果をもとに国際ジャーナルに投稿するはずだったが、国際会議CoRLにおいてスタンフォード大学が我々の手法と類似した方法を提案していることがわかった。 彼らの手法との差異を明確にするために、彼らのアルゴリズムを詳細に検討し我々のシステム上で実装し実験したところ、あまり有意な差がみられなかった。そのため我々の実装の非同期部分をさらに改善するとともに、実ロボット実験を用いて我々の有効性を主張する必要があると判断した。そのためいったんジャーナル投稿を取りやめ、実ロボット実験システムの構築に時間を費やす必要があり、進捗状況は「遅れている」と判断した。
|
今後の研究の推進方策 |
現在までの進捗状況で述べたとおり、実ロボット制御のためのマルチモジュール・マルチタイムスケール強化学習アーキテクチャをRobot Operating System上で構築する。実験に用いるロボットは7自由度マニピュレータxArm 7に手先にグリッパとカメラを搭載したものを用いる。また力覚センサも取り付けることで、スタンフォード大学の研究では考慮されていない、力学的な条件も含めた実験が可能なように制御則のネットワーク表現を拡張する。またアルゴリズム上でのマルチタイムスケール対応と、ROS上での実際のマルチタイムスケールによる制御周期のばらつきを検証し、最終的なロボットの制御が安定となるようにフィルターを導入する。
|