研究課題/領域番号 |
19K20375
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 名古屋大学 |
研究代表者 |
有泉 亮 名古屋大学, 工学研究科, 助教 (30775143)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2021年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2020年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
2019年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 強化学習 / ロボティクス / 制御工学 / ロボット / マイクロデータ / 多自由度ロボット / 応答曲面法 / 最適制御 / 機械学習 / データ駆動型制御 |
研究開始時の研究の概要 |
実験に基づく最適化法として応答曲面法が注目されている.この方法では比較的限定的な実験回数で最適解を探索可能であることから,実験に時間・労力・費用がかかる場合などに適していると考えられている.しかし,移動ロボットなどの高次元システムへの適用を想定すると,実用的な回数実験で最適解を得ることは難しい.そこで,本研究では高次元なシステムでも実用的な回数の実験で最適化を行うための工夫について考察する.また,単なるパラメータ最適化ではなく,最適制御問題へ応用するための考察を行う.
|
研究成果の概要 |
ロボットなどへの応用を念頭に,比較的少ない実験回数で最適な制御入力を得る強化学習則を目指し研究を行った.特に,ロボットの強化学習法として知られるPI2と呼ばれる強化学習則の応用を中心に検討した.これにより,従来の強化学習法では学習困難であった脚ロボットの転倒状態からの起き上がり動作の習得など,困難なタスクを数千回程度の実験結果をもとに達成することに成功している.また,制御工学の知見を応用することにより,より効率よく学習を行うための基礎的な検討を行った.
|
研究成果の学術的意義や社会的意義 |
強化学習の有効性は様々な分野で明らかになってきているが,多自由度ロボットの強化学習は状態や入力が連続値であることもあり,タスクによっては数十万回に及ぶ実験が必要となるなど,まだ実用に足る効率は発揮できていない.本研究ではデータ効率の向上を目的に,データの使い方の工夫を提案した.また,データの工夫だけでは効率化に限界がある.そこで,明らかに成立する物理的性質を学習に取り入れることを考え,その実現のための基礎的検討を行った.これらは,今後さらに強化学習の効率を向上させ,多自由度ロボットの強化学習のデータ効率を実用的なレベルに引き上げるための基礎となりうる.
|