接触の将来性学習に基づく多点接触動作計画の実現

研究課題

研究課題/領域番号	23K16978
研究種目	若手研究
配分区分	基金
審査区分	小区分61050:知能ロボティクス関連
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	熊谷伊織国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 主任研究員 (60803880)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 650千円 (直接経費: 500千円、間接経費: 150千円) 2024年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2023年度: 2,340千円 (直接経費: 1,800千円、間接経費: 540千円)
キーワード	ヒューマノイドロボット / 多点接触 / 強化学習 / 動作計画
研究開始時の研究の概要	本研究ではヒューマノイドロボットがその身体構造を活用し、大型構造物組立現場のような未知の複雑環境において人間が行うような複雑さと速度を備えた多点接触動作を計画する手法を実現する。そのためには、その場で無限に存在する環境との接触点候補の中から適切な接触点を選択し、運動学的・動力学的制約により実現不可能な動作を除外する技術が必要となる。本研究ではロボットが環境と接触することでそれ以降の動作の可解性や質がどの程度高まるかを「接触の将来性」として定量化し、強化学習手法による長期的な将来性の予測と最適化手法による明示的に運動学的・動学的制約を考慮した動作計画を統合することでこの問題を解決する。
研究実績の概要	本年度は接触の将来性を考慮した動作計画を実現するための基板となるヒューマノイドロボットの多点接触計画手法の開発を行った。まず研究代表者がこれまでに開発していた数値最適化手法を用いたヒューマノイドロボットの全身動作計画手法の高速化を行った。更に接触の将来性をロボットの運動学的制約、動作計画結果の定性的な好ましさ、及び目標への到達可能性に基づいて定義し、それを報酬として用いることで最適化による動作計画手法が望ましい解を得やすいような接触点を強化学習によって獲得する多点接触計画手法を実現した。探索空間が大きく、現在の選択が将来に与える影響を明示的に書き下すことが困難な上位の意思決定である接触点の選択を強化学習によって獲得した方策によって行い、陽に制約条件を満たすことが保証可能な最適化動作計画によってヒューマノイドロボットの全身動作を生成することで接触の将来性を考慮したヒューマノイドロボットの移動計画が可能となった。さらに開発した手法を複数の典型的な多点接触動作計画問題を用いて評価し、既存手法と比べて高速かつ高い成功率で多点接触動作計画が実現できることを定性的・定量的に確認した。開発した多点接触計画手法は既知の環境における準静的な動作計画にとどまっており、実世界でのロボットへの適用も現時点ではまだ未達であるが、本年度の成果はヒューマノイドロボットが人間のような複雑な多点接触動作を計画するにあたり強化学習による長期的な将来性の予測と最適化手法による制約を考慮した動作計画の統合が有効であることを実証するものであると考えており、論文誌に投稿・査読中である。また、ヒューマノイドロボットの多点接触動作計画についての近年の研究動向についてのサーベイ論文を論文誌に発表している。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は研究代表者が開発してきたヒューマノイドロボットの最適化動作計画の高速化を行うとともに、接触の将来性の定義を行い強化学習の報酬として利用することにより最適化動作計画の解が得やすい接触点を学習することが可能な多点接触計画手法を実現した。強化学習による将来性を考慮した接触点の選択と最適化動作計画による制約条件を考慮した全身動作生成を統合することにより、既存の探索に基づく多点接触計画の問題であった局所最適を回避し、動作計画の成功率と計算速度を改善できることを示した。開発した手法は複数の環境においてヒューマノイドロボットの多点接触動作を計画できることを確認しており、今後更に複雑な環境へと適用範囲を拡張するべく開発を進めている。得られた成果は本研究の中核となるアイデアである強化学習による上位の意思決定と最適化による下位の全身動作生成の統合がヒューマノイドロボットの多点接触動作計画問題に置いて有効であることを示すものであると考えている。一方で現時点では計画可能な動作は準静的なものにとどまっており、人間の動作のような速度を実現するためには動力学的な条件を考慮した時系列最適化手法の開発を行う必要がある。
今後の研究の推進方策	次年度は今年度開発した接触の将来性を考慮した多点接触計画手法を拡張し、より複雑な環境や移動以外の作業へと適用範囲を広げることを目指す。具体的には、制約条件が厳しく最適化動作計画の可解性の低い問題においても多点接触学習を行うために環境や条件の複雑さを段階的に上昇させるカリキュラム学習の導入を検討している。また動力学的な制約条件を考慮した時系列最適化手法を導入し、動作時間の最適化による多点接触動作の速度向上を図る。人間と同等以上の速度で動作を行うために、保守的な動作生成によって得られた接触遷移列に対して時系列最適化手法を適用することにより非線形な動力学的条件を満たしつつ所要時間を最小化することで高速化を実現する。更に計画した多点接触動作を実世界のヒューマノイドロボットに適用し実世界の複雑環境において計画した動作が実現可能であることを検証することにより開発した手法の実用性を評価・検証する予定である。