Speech to Instant Gesture: 発話に伴うジェスチャの低遅延・リアルタイム自動生成

研究課題

研究課題/領域番号	23K16929
研究種目	若手研究
配分区分	基金
審査区分	小区分61020:ヒューマンインタフェースおよびインタラクション関連
研究機関	東京電機大学
研究代表者	金子直史東京電機大学, 未来科学部, 准教授 (40803531)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円) 2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2023年度: 2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
キーワード	ジェスチャ生成 / 深層学習 / 生成モデル / 行動認識 / 発話音声 / マルチモーダルインタフェース / 対話エージェント
研究開始時の研究の概要	発話に伴うジェスチャは、対話エージェントやアバタなど、人型インタフェースのコミュニケーション能力向上に欠かせない要素である。従来のジェスチャ生成研究は、ジェスチャの質のみを優先し、生成時の大きな遅延を無視してきたため、限られたアプリケーションにしか適用できなかった。本研究では、人型インタフェースに即時的なジェスチャ能力を付与することを目指し、ジェスチャを低遅延・リアルタイムに自動生成する技術を確立する。そのために、発話を逐次処理可能なジェスチャ生成器の開発および未来動作の予測技術開発によって低遅延・リアルタイムなジェスチャ生成器を構築し、対話を模した実験での評価によって有効性を明らかにする。
研究実績の概要	本研究では、発話に伴うジェスチャの自動生成において、発話の入力から低遅延・リアルタイムにジェスチャを生成する技術を確立することを目的としている。具体的には、(a) 発話を逐次処理可能なジェスチャ生成器の開発、および(b) 遅延を相殺するための未来動作の予測、によって低遅延・リアルタイムなジェスチャ生成器を構築する。また、(c)生成されたジェスチャの評価方法について検討を進めるとともに、(d) 人間との対話を模した実験での生成ジェスチャの評価によって有効性を明らかにすることで、人型インタフェースのコミュニケーション能力の高度化に寄与することを目指す。今年度は、主に(a)および(c)について研究を進めた。 (a)については、自己回帰型の深層ニューラルネットワークを用いて、発話を逐次処理可能なジェスチャ生成を行う手法について研究した。生成したジェスチャの連続性を向上させる学習方法を新たに開発し、PRMU研究会およびViEW2023で発表した。 (c)については、人間が行ったジェスチャと、生成されたジェスチャとをジェスチャの動きによって行動認識技術を応用し姿勢系列から判別する手法を新たに開発した。人間のジェスチャと生成ジェスチャとを自動で判別することにより、それらにどのような違いがあるのかや、どれだけ差異があるのかの分析が可能になり、生成ジェスチャの自動評価に活用できる。この内容については、PRMU研究会、BioX研究会での発表に加え、論文誌（レター）へも現在投稿中である。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由発話を逐次処理可能なジェスチャ生成器の開発については、研究会および国内会議で発表するなど一定の成果をあげており、概ね順調に進展しているといえる。生成されたジェスチャの評価については、複数の研究会での発表に加え、論文誌（レター）へも投稿できており、順調に進展しているといえる。
今後の研究の推進方策	今年度の成果により、発話を逐次処理可能なジェスチャ生成器の構築に自己回帰型の深層ニューラルネットワークを用いることの一定の有効性が示された。今後は、近年動作生成分野で注目されているベクトル量子化などの技術を導入しつつ、生成器の性能向上に取り組む。また未来予測に関しては、ジェスチャの動きを予測する方法と、入力となる音声信号を予測するふたつのアプローチから研究を進めていく。ジェスチャの評価方法に関しても、今年度の成果を発展させ、人間のジェスチャと生成ジェスチャの判別精度を向上させるとともに、ジェスチャの評価への応用も進めていく。

報告書

(1件)

2023 実施状況報告書

研究成果
(4件)

すべて 2023

すべて学会発表 (4件)

[学会発表] 低遅延なジェスチャ生成のための逐次的な生成器の提案2023
- 著者名/発表者名
  光林優菜，金子直史，鷲見和彦
- 学会等名
  信学技報, vol. 123, no. 30, PRMU2023-4, pp. 16-21
- 関連する報告書
  2023 実施状況報告書
[学会発表] ジェスチャの自動生成におけるフェイクとリアルの判別2023
- 著者名/発表者名
  牟耕，金子直史，鷲見和彦
- 学会等名
  信学技報, vol. 123, no. 30, PRMU2023-5, pp. 22-26
- 関連する報告書
  2023 実施状況報告書
[学会発表] 発話人物のジェスチャに対するリアルと自動生成とのクラス判別～自己教師あり学習による未学習生成法への汎化性能向上の試み～2023
- 著者名/発表者名
  牟耕，金子直史，鷲見和彦
- 学会等名
  信学技報, vol. 123, no. 209, BioX2023-67, pp. 44-49
- 関連する報告書
  2023 実施状況報告書
[学会発表] 低遅延なジェスチャ生成のための逐次的な生成器の提案2023
- 著者名/発表者名
  光林優菜，金子直史，鷲見和彦
- 学会等名
  ビジョン技術の実利用ワークショップ2023 (ViEW2023)
- 関連する報告書
  2023 実施状況報告書

Speech to Instant Gesture: 発話に伴うジェスチャの低遅延・リアルタイム自動生成

研究代表者

金子 直史 東京電機大学, 未来科学部, 准教授 (40803531)

4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] 低遅延なジェスチャ生成のための逐次的な生成器の提案2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] ジェスチャの自動生成におけるフェイクとリアルの判別2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 発話人物のジェスチャに対するリアルと自動生成とのクラス判別 ～ 自己教師あり学習による未学習生成法への汎化性能向上の試み ～2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 低遅延なジェスチャ生成のための逐次的な生成器の提案2023

著者名/発表者名

学会等名

関連する報告書

金子直史東京電機大学, 未来科学部, 准教授 (40803531)

[学会発表] 発話人物のジェスチャに対するリアルと自動生成とのクラス判別～自己教師あり学習による未学習生成法への汎化性能向上の試み～2023