研究課題/領域番号 |
21H04910
|
研究機関 | オムロンサイニックエックス株式会社 |
研究代表者 |
橋本 敦史 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (80641753)
|
研究分担者 |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
牛久 祥孝 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, プリンシパルインベスティゲーター (10784142)
濱屋 政志 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (10869176)
松原 崇充 奈良先端科学技術大学院大学, 研究推進機構, 特任准教授 (20508056)
森 信介 京都大学, 学術情報メディアセンター, 教授 (90456773)
VON・DRIGALSKI FELIX オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (90869215) [辞退]
|
研究期間 (年度) |
2021-04-05 – 2024-03-31
|
キーワード | 自然言語処理 / クロスモーダル処理 / ロボティクス |
研究実績の概要 |
本研究の骨子は(A-1)言語指示からの環境・身体性非依存な動作記述生成、(A-2)力学的インタラクションに基づく動作系列の生成、(B-1) Inter-object centric programmingに基づいたAPIの実現、ならびに(B-2) 力学的インタラクションに基づいた作業模倣の4つとなる。 このうち(A-1)について、まずは作業の目標状態を検索するタスクに取り組み、性能を評価した.また,目標状態を画像として生成するタスクへの取り組みを開始した。それに加え、データセットとして多数のキッチンでの調理を観測した大規模映像データを収集するとともに、本課題達成のためのアノテーション基準を策定することができた。実世界で言語指示に基づいて目標となる状態を生成する技術や、作業内容による物体変化を言語と紐付けて収集した大規模データは世界的にも類を見ないものとなっている。 (A-2)については当初は映像と力覚データを時間同期して取得することを想定していたが現在市販されているセンサ類でこれを実現することが難しいということがわかり、画像からわかる人と物体とのインタラクションの解析に注力するバックアッププランに転換をし、現在研究を進めている。 (B-1)について当初担当予定だった分担研究者が諸事情により離任したため計画に遅れが生じている。バックアッププランとして食材を切るためのモーションなどのスキルセット整備を進めている。 (B-2)について、汎用性のあるグリッパによって食材のような形状や固さなどの物性に多様性がある物体でも頑健に把持できる手法を開発した。調理という複雑な課題を単独のロボットに実行させる上で、特定の動作に特化したグリッパを用いることは現実的ではなく、汎用グリッパで動作する手法は貴重な技術である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
A-1について、当初は特定環境での動作生成までを行う予定であった。しかしながら、その第一段階の目標状態となる静止画の生成においても想定以上に技術的困難性が高く、現状ではその静止画の生成のベースラインができたところに留まっている.一方で多様な環境での調理作業を観測したデータセットの整備は2022年度中にアノテーションまで完了する見込みで、静止画の生成から動画の生成までの技術を実現すればA-1の2022年度の到達目標は達成できる見込みとなっている。 A-2について、センサの選定見通しが甘く、予算の不足から時間同期した状態で映像と力覚情報を取得することができず、計画の見直しを余儀なくされた。 B-1について、当初この課題を担当予定だったものが退職したため、計画の見直しを余儀なくされた。現在、代替してこの研究を遂行できる研究者を探しているが、国内の人材不足、ならびに、コロナ禍で海外研究者へのリーチが難しいなどの理由により2021年度内に代替人材を見つけることが叶わなかった。 B-2については調理に必要な動作のうち、最も基本的な把持について、模倣学習ほど制約がきつくない自己教示学習によって壊れやすく形状が多様な食材のような物体でも汎用グリッパで頑健に把持できる手法を開発することができている。当初予定のような模倣学習は利用していないものの、同じかそれ以上の進捗があったと認識している。
|
今後の研究の推進方策 |
A-1については、2022年度の前期中に目標状態を静止画として生成できるようになる見込みである。また、多様な環境での調理動作のデータセットが後期中にアノテーションまで完了する見込みである。従って、後期に映像生成に取り組むことで当初予定である多様な環境での動作生成が可能になると想定している。 A-2については引き続き時間を同期した状態での力覚と視覚の観測システム構築ができないか検討するが、バックアッププランである映像のみからのインタラクション解析を進める予定である。特に移動エントロピーを深層学習により推定する手法などが近年開発されており、手領域と物体領域のインタラクションを定量的に解析することができるのではないかと期待している. B-1についてはFelix Drigalskiに代わって分担者:濱屋が技術的な引き継ぎを受けて本課題を遂行しているもののB-2など他の課題も進めており負担が過剰な状態が続いている.このため,本課題に取り組める能力を持った研究者を探し,状況を改善したいと考えている。
|