2021 Fiscal Year Annual Research Report

Development of Motion Generation Technology to Realize Robots that Perform Various Tasks according to Natural Language Instructions

Research Project

Project/Area Number	21H04910
Research Institution	OMRON SINIC X Corporation
Principal Investigator	橋本敦史オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (80641753)
Co-Investigator(Kenkyū-buntansha)	井上中順東京工業大学, 情報理工学院, 准教授 (10733397) 牛久祥孝オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, プリンシパルインベスティゲーター (10784142) 濱屋政志オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (10869176) 松原崇充奈良先端科学技術大学院大学, 研究推進機構, 特任准教授 (20508056) 森信介京都大学, 学術情報メディアセンター, 教授 (90456773) VON・DRIGALSKI FELIX オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (90869215) [Withdrawn]
Project Period (FY)	2021-04-05 – 2024-03-31
Keywords	自然言語処理 / クロスモーダル処理 / ロボティクス
Outline of Annual Research Achievements	本研究の骨子は(A-1)言語指示からの環境・身体性非依存な動作記述生成、(A-2)力学的インタラクションに基づく動作系列の生成、（B-1) Inter-object centric programmingに基づいたAPIの実現、ならびに(B-2) 力学的インタラクションに基づいた作業模倣の4つとなる。このうち(A-1)について、まずは作業の目標状態を検索するタスクに取り組み、性能を評価した．また，目標状態を画像として生成するタスクへの取り組みを開始した。それに加え、データセットとして多数のキッチンでの調理を観測した大規模映像データを収集するとともに、本課題達成のためのアノテーション基準を策定することができた。実世界で言語指示に基づいて目標となる状態を生成する技術や、作業内容による物体変化を言語と紐付けて収集した大規模データは世界的にも類を見ないものとなっている。 (A-2)については当初は映像と力覚データを時間同期して取得することを想定していたが現在市販されているセンサ類でこれを実現することが難しいということがわかり、画像からわかる人と物体とのインタラクションの解析に注力するバックアッププランに転換をし、現在研究を進めている。 (B-1)について当初担当予定だった分担研究者が諸事情により離任したため計画に遅れが生じている。バックアッププランとして食材を切るためのモーションなどのスキルセット整備を進めている。 (B-2)について、汎用性のあるグリッパによって食材のような形状や固さなどの物性に多様性がある物体でも頑健に把持できる手法を開発した。調理という複雑な課題を単独のロボットに実行させる上で、特定の動作に特化したグリッパを用いることは現実的ではなく、汎用グリッパで動作する手法は貴重な技術である。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason A-1について、当初は特定環境での動作生成までを行う予定であった。しかしながら、その第一段階の目標状態となる静止画の生成においても想定以上に技術的困難性が高く、現状ではその静止画の生成のベースラインができたところに留まっている．一方で多様な環境での調理作業を観測したデータセットの整備は2022年度中にアノテーションまで完了する見込みで、静止画の生成から動画の生成までの技術を実現すればA-1の2022年度の到達目標は達成できる見込みとなっている。 A-2について、センサの選定見通しが甘く、予算の不足から時間同期した状態で映像と力覚情報を取得することができず、計画の見直しを余儀なくされた。 B-1について、当初この課題を担当予定だったものが退職したため、計画の見直しを余儀なくされた。現在、代替してこの研究を遂行できる研究者を探しているが、国内の人材不足、ならびに、コロナ禍で海外研究者へのリーチが難しいなどの理由により2021年度内に代替人材を見つけることが叶わなかった。 B-2については調理に必要な動作のうち、最も基本的な把持について、模倣学習ほど制約がきつくない自己教示学習によって壊れやすく形状が多様な食材のような物体でも汎用グリッパで頑健に把持できる手法を開発することができている。当初予定のような模倣学習は利用していないものの、同じかそれ以上の進捗があったと認識している。
Strategy for Future Research Activity	A-1については、2022年度の前期中に目標状態を静止画として生成できるようになる見込みである。また、多様な環境での調理動作のデータセットが後期中にアノテーションまで完了する見込みである。従って、後期に映像生成に取り組むことで当初予定である多様な環境での動作生成が可能になると想定している。 A-2については引き続き時間を同期した状態での力覚と視覚の観測システム構築ができないか検討するが、バックアッププランである映像のみからのインタラクション解析を進める予定である。特に移動エントロピーを深層学習により推定する手法などが近年開発されており、手領域と物体領域のインタラクションを定量的に解析することができるのではないかと期待している． B-1についてはFelix Drigalskiに代わって分担者：濱屋が技術的な引き継ぎを受けて本課題を遂行しているもののB-2など他の課題も進めており負担が過剰な状態が続いている．このため，本課題に取り組める能力を持った研究者を探し，状況を改善したいと考えている。

Research Products
(6 results)

All 2022 2021

All Presentation (5 results) (of which Int'l Joint Research: 2 results, Invited: 2 results) Patent(Industrial Property Rights) (1 results)

[Presentation] レシピ分野における動作対象の状態変化を考慮したデータセットの構築と検索モデルの提案2022
- Author(s)
  白井圭佑, 橋本敦史, 牛久祥孝, 栗田修平, 亀甲博貴, 森信介
- Organizer
  言語処理学会第28回年次大会
[Presentation] Egocentric Biochemical Video-and-Language Dataset2021
- Author(s)
  Nishimura Taichi、Sakoda Kojiro、Hashimoto Atsushi、Ushiku Yoshitaka、Tanaka Natsuko、Ono Fumihito、Kameko Hirotaka、Mori Shinsuke
- Organizer
  The 4th Workshop on Closing the Loop Between Vision and Language in conjunction with ICCV2021
- Int'l Joint Research
[Presentation] State-aware Video Procedural Captioning2021
- Author(s)
  Nishimura Taichi、Hashimoto Atsushi、Ushiku Yoshitaka、Kameko Hirotaka、Mori Shinsuke
- Organizer
  The 29th ACM International Conference on Multimedia
- Int'l Joint Research
[Presentation] 自然言語に応じて多様な作業を行うロボット実現に向けたクロスモーダル機械学習の取り組み2021
- Author(s)
  橋本敦史
- Organizer
  日本ロボット学会データ工学ロボティクス研究専門委員会主催公開講演会
- Invited
[Presentation] クロスモーダル処理技術が統合する視覚・言語・ロボット制御技術の未来2021
- Author(s)
  橋本敦史
- Organizer
  日本機械学会年次大会
- Invited
[Patent(Industrial Property Rights)] 制御装置、制御方法、及び制御プログラム2022
- Inventor(s)
  濱屋政志、石川玲奈、橋本敦史、田中一敏
- Industrial Property Rights Holder
  濱屋政志、石川玲奈、橋本敦史、田中一敏
- Industrial Property Rights Type
  特許
- Industrial Property Number
  2022-032176

2021 Fiscal Year Annual Research Report

Development of Motion Generation Technology to Realize Robots that Perform Various Tasks according to Natural Language Instructions

Principal Investigator

橋本 敦史 オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (80641753)

Current Status of Research Progress

Reason

Research Products

[Presentation] レシピ分野における動作対象の状態変化を考慮したデータセットの構築と検索モデルの提案2022

Author(s)

Organizer

[Presentation] Egocentric Biochemical Video-and-Language Dataset2021

Author(s)

Organizer

[Presentation] State-aware Video Procedural Captioning2021

Author(s)

Organizer

[Presentation] 自然言語に応じて多様な作業を行うロボット実現に向けたクロスモーダル機械学習の取り組み2021

Author(s)

Organizer

[Presentation] クロスモーダル処理技術が統合する視覚・言語・ロボット制御技術の未来2021

Author(s)

Organizer

[Patent(Industrial Property Rights)] 制御装置、制御方法、及び制御プログラム2022

Inventor(s)

Industrial Property Rights Holder

Industrial Property Rights Type

Industrial Property Number

橋本敦史オムロンサイニックエックス株式会社, リサーチアドミニストレイティブディビジョン, シニアリサーチャー (80641753)