Speech-to-Lecture: 教育エージェントによる学習教材の自動生成

Research Project

Project/Area Number	21K12160
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 62030:Learning support system-related
Research Institution	Hokkai-Gakuen University
Principal Investigator	長谷川大北海学園大学, 工学部, 教授 (30633268)
Co-Investigator(Kenkyū-buntansha)	金子直史東京電機大学, 未来科学部, 准教授 (40803531) 白川真一横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000) Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000) Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	Pedagogical Agent / ジェスチャ生成 / 教育支援 / ジェスチャ推定 / ジェスチャ / Deep Neural Network / 3次元姿勢推定
Outline of Research at the Start	本研究では、動画像から人体の3次元姿勢推定を行う技術を用いて講義動画像からスピーチと3次元の人体動作の大規模なデータセットを構築する。また、ジェスチャと共起する言語情報を「Word Embedding」によりベクトル表現し、さらに、この言語ベクトルと動作ベクトルを同時に保持・表現可能な表現系をAuto Encoderにより開発する。最後に本研究で収集・表現された大規模マルチモーダルデータセットから音声時系列情報とジェスチャ時系列情報の関連性を学習可能なDeep Neural Networkの開発を行う。
Outline of Annual Research Achievements	本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータドリブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。前年度は日本語テキストと英語テキストが同じ潜在空間で分散表現されるように学習されたembeddingを用いることにより、英語データセットで学習したジェスチャ生成モデルに日本語を入力してジェスチャ生成が可能であることを確認した。また、近年発表されたGesture２VecはVQ-VAEによりジェスチャ系列の表現を獲得し、人間が産出したジェスチャのような自然さをもつジェスチャの生成に成功している。このことから、インプットする音声やテキストデータの表現だけでなく、アウトプットとなる動作の表現系を工夫することで、より意味的かつ形態的特徴を捉えたジェスチャの生成が可能になると考えられる。そこで、研究担当者らが所持する日本語のジェスチャデータセットにおいてもVQ-VAEを用いたジェスチャ生成を試みたが、VQ-VAEのコードブック崩壊がおき、学習が安定しない現象がみられた。そこで、今年度はVQ-VAEを改善したSQ-VAEを階層化したモデルによるジェスチャ生成に取り組んだ。実験では、両腕８関節分の72次元x20フレーム分の姿勢ベクトル系列を504次元の離散表現に変換し、離散表現から元の姿勢系列を再構築するよう Hierachical SQ-VAE の学習を行なった。学習後のモデルにより、離散表現への変換およびジェスチャ系列の再構成を試みた結果、元のジェスチャの特徴を捉えた再構築結果が確認された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになったが、日本語のデータセットにこだわらず、英語データセットを利用したレクチャー生成に方針を変更した。また近年発表された技術によるジェスチャ生成がこれまでと一線を画したものであったため、この技術を取り入れざるを得ず、ジェスチャ生成の基盤となる動作表現系の再検討をおこなった。これらの事由によって計画にやや遅れが生じた。
Strategy for Future Research Activity	言語を問わずレクチャー時のジェスチャデータセットを検討する。また、今年度検討を行ったSQ-VAEを用いて獲得されたジェスチャ表現を利用したレクチャー時のジェスチャ生成を試みる。一方で、近年は拡散モデルによるジェスチャ生成の研究成果も発表されているため、同時に拡散モデルによるレクチャー時のジェスチャ生成も試行し、比較を行う。

Report

(3 results)

Research Products
(3 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Evaluation of text-to-gesture generation model using convolutional neural network2022
- Author(s)
  Eiichi Asakawa, Naoshi Kaneko, Dai Hasegawa, Shinichi Shirakawa
- Journal Title
  
  Neural Networks
  
  Volume: 151 Pages: 365-375
- DOI
  10.1016/j.neunet.2022.03.041
- Related Report
  2022 Research-status Report 2021 Research-status Report
- Peer Reviewed / Open Access
[Presentation] Hierarchical SQ-VAEによる発話にともなうジェスチャの離散表現の獲得2024
- Author(s)
  長谷川大、金子直史、白川真一
- Organizer
  HAIシンポジウム2024
- Related Report
  2023 Research-status Report
[Presentation] Language Agnostic Gesture Generation Model: A Case Study of Japanese Speakers’ Gesture Generation Using English Text-to-Gesture Model2023
- Author(s)
  Genki Sakata, Naoshi Kaneko, Dai Hasegawa and Shinichi Shirakawa
- Organizer
  the 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP 2023) - Volume 2: HUCAPP
- Related Report
  2022 Research-status Report
- Int'l Joint Research

Speech-to-Lecture: 教育エージェントによる学習教材の自動生成

Principal Investigator

長谷川 大 北海学園大学, 工学部, 教授 (30633268)

¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Evaluation of text-to-gesture generation model using convolutional neural network2022

Author(s)

Journal Title

DOI

Related Report

[Presentation] Hierarchical SQ-VAEによる発話にともなうジェスチャの離散表現の獲得2024

Author(s)

Organizer

Related Report

[Presentation] Language Agnostic Gesture Generation Model: A Case Study of Japanese Speakers’ Gesture Generation Using English Text-to-Gesture Model2023

Author(s)

Organizer

Related Report

長谷川大北海学園大学, 工学部, 教授 (30633268)