研究課題/領域番号 |
21H03522
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
松原 崇充 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (20508056)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2023年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2022年度: 6,110千円 (直接経費: 4,700千円、間接経費: 1,410千円)
2021年度: 7,540千円 (直接経費: 5,800千円、間接経費: 1,740千円)
|
キーワード | 強化学習 / 試行錯誤 / 安全性 / 信頼性 / エントロピー正則化 / 単調方策改善 / ロボットラーニング / 試行錯誤の安全性 / 学習の信頼性 / ドメインランダム化強化学習 |
研究開始時の研究の概要 |
本研究の目的は、環境や道具との物理的接触を伴う作業を学習可能なロボット強化学習の技術基盤の確立である。サイバー世界を指向する現行の強化学習の枠組みでは、試行錯誤の際、不意の物理接触・衝突に対して故障・損傷を防ぐ「安全性」、学習により行動規則を確実に改善する「信頼性」が備わっていない。本研究では「安全性」と「信頼性」を備えた実世界ロボット指向の理論および技術基盤の確立を狙う。
|
研究成果の概要 |
本研究では、ロボットが環境や道具との接触を伴う物理的作業を学習する際に要求される安全性と信頼性を備えた強化学習技術基盤を提案した。特に、試行錯誤時における衝突リスクの低減による安全性や、経験サンプル不足等による方策改善時の方策振動を抑制する信頼性を実現するための理論やアルゴリズムを開発した。さらに実ロボットを用いた複数の物理接触を含む作業タスクに適用し、その有効性を検証した。
|
研究成果の学術的意義や社会的意義 |
本研究では、労働力不足の問題が深刻化する人口減少や超高齢社会において、ロボットを効果的に活用するための強化学習技術基盤を開発した。その成果により、ロボットが環境や道具との物理的接触を伴う作業を、より安全かつ効率的に学習可能なった。今後は、部品組み立てや調理など、実世界の様々な産業やサービスへの応用が期待される。この技術は、ロボットの普及と実用化を促進し、社会的にも大きな意義を持つと考えられる。
|