Speech to Instant Gesture: Low-Latency, Real-Time Co-Speech Gesture Generation

Research Project

Project/Area Number	23K16929
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61020:Human interface and interaction-related
Research Institution	Tokyo Denki University
Principal Investigator	金子直史東京電機大学, 未来科学部, 准教授 (40803531)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2024: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2023: ¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Keywords	ジェスチャ生成 / 深層学習 / 生成モデル / 行動認識 / 発話音声 / マルチモーダルインタフェース / 対話エージェント
Outline of Research at the Start	発話に伴うジェスチャは、対話エージェントやアバタなど、人型インタフェースのコミュニケーション能力向上に欠かせない要素である。従来のジェスチャ生成研究は、ジェスチャの質のみを優先し、生成時の大きな遅延を無視してきたため、限られたアプリケーションにしか適用できなかった。本研究では、人型インタフェースに即時的なジェスチャ能力を付与することを目指し、ジェスチャを低遅延・リアルタイムに自動生成する技術を確立する。そのために、発話を逐次処理可能なジェスチャ生成器の開発および未来動作の予測技術開発によって低遅延・リアルタイムなジェスチャ生成器を構築し、対話を模した実験での評価によって有効性を明らかにする。
Outline of Annual Research Achievements	本研究では、発話に伴うジェスチャの自動生成において、発話の入力から低遅延・リアルタイムにジェスチャを生成する技術を確立することを目的としている。具体的には、(a) 発話を逐次処理可能なジェスチャ生成器の開発、および(b) 遅延を相殺するための未来動作の予測、によって低遅延・リアルタイムなジェスチャ生成器を構築する。また、(c)生成されたジェスチャの評価方法について検討を進めるとともに、(d) 人間との対話を模した実験での生成ジェスチャの評価によって有効性を明らかにすることで、人型インタフェースのコミュニケーション能力の高度化に寄与することを目指す。今年度は、主に(a)および(c)について研究を進めた。 (a)については、自己回帰型の深層ニューラルネットワークを用いて、発話を逐次処理可能なジェスチャ生成を行う手法について研究した。生成したジェスチャの連続性を向上させる学習方法を新たに開発し、PRMU研究会およびViEW2023で発表した。 (c)については、人間が行ったジェスチャと、生成されたジェスチャとをジェスチャの動きによって行動認識技術を応用し姿勢系列から判別する手法を新たに開発した。人間のジェスチャと生成ジェスチャとを自動で判別することにより、それらにどのような違いがあるのかや、どれだけ差異があるのかの分析が可能になり、生成ジェスチャの自動評価に活用できる。この内容については、PRMU研究会、BioX研究会での発表に加え、論文誌（レター）へも現在投稿中である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 発話を逐次処理可能なジェスチャ生成器の開発については、研究会および国内会議で発表するなど一定の成果をあげており、概ね順調に進展しているといえる。生成されたジェスチャの評価については、複数の研究会での発表に加え、論文誌（レター）へも投稿できており、順調に進展しているといえる。
Strategy for Future Research Activity	今年度の成果により、発話を逐次処理可能なジェスチャ生成器の構築に自己回帰型の深層ニューラルネットワークを用いることの一定の有効性が示された。今後は、近年動作生成分野で注目されているベクトル量子化などの技術を導入しつつ、生成器の性能向上に取り組む。また未来予測に関しては、ジェスチャの動きを予測する方法と、入力となる音声信号を予測するふたつのアプローチから研究を進めていく。ジェスチャの評価方法に関しても、今年度の成果を発展させ、人間のジェスチャと生成ジェスチャの判別精度を向上させるとともに、ジェスチャの評価への応用も進めていく。