2022 Fiscal Year Research-status Report

Speech-to-Lecture: 教育エージェントによる学習教材の自動生成

Research Project

Project/Area Number	21K12160
Research Institution	Hokkai-Gakuen University
Principal Investigator	長谷川大北海学園大学, 工学部, 准教授 (30633268)
Co-Investigator(Kenkyū-buntansha)	金子直史青山学院大学, 理工学部, 助教 (40803531) 白川真一横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
Project Period (FY)	2021-04-01 – 2025-03-31
Keywords	Pedagogical Agent / ジェスチャ生成 / 教育支援
Outline of Annual Research Achievements	本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータドリブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。初年度には既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する予定であった。レクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。そのため、本年度は日本語データセットに比べてボリュームの大きい英語データセットを利用して、日本語のスピーチに対するジェスチャ生成を行うことを検討した。具体的には、まず英語スピーチ音声をテキスト化し、英語テキストからジェスチャを生成するモデルを学習する。この際、テキスト情報は、日本語テキストと英語テキストが同じ潜在空間で分散表現されるように学習されたembeddingを用いる。これにより、日本語テキストと英語テキストが意味的に類似する場合、互いに類似した単語ベクトルに変換されるため、英語データセットで学習したジェスチャ生成モデルに日本語テキストを入力することが可能になる。本手法を用いて、日本語のスピーチ音声をテキスト化し、ジェスチャ生成を試みた結果、単純に日本語を英語に翻訳してジェスチャを生成するより、良好な結果が得られることを確認した。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また姿勢推定処理のうち2次元姿勢データを抽出した後の3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが明らかになった。そのため、日本語のデータセットにこだわらず、英語データセットを利用したレクチャー生成に方針を変更したため、計画に遅れが生じている。
Strategy for Future Research Activity	今年度の成果により、日本語テキストと英語テキストが同じ潜在空間で分散表現されるembeddingを用いることにより、英語データセットを利用した日本語のレクチャー生成への道筋が示された。また近年発表されたGesture2Vecは人間の動作表現をより効率的に表現できることが示されているなど、本研究にも応用可能な高度AI技術が散見されるようになってきた。今後は、これらの技術の導入も検討した上で、Pedagogical Agentのレクチャー生成手法の開発を行う。
Causes of Carryover	令和４年度はまだオンライン開催やハイブリッド開催の国内会議、国際会議が多く、渡航して現地参加をする機会が少なかったため旅費として予定よりも支出が少なかった。次年度使用額は次年度の渡航費や学習用マシンのパーツに使用する。

Research Products
(2 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Evaluation of text-to-gesture generation model using convolutional neural network2022
- Author(s)
  Eiichi Asakawa, Naoshi Kaneko, Dai Hasegawa, Shinichi Shirakawa
- Journal Title
  
  Neural Networks
  
  Volume: 151 Pages: 365-375
- DOI
  10.1016/j.neunet.2022.03.041
- Peer Reviewed / Open Access
[Presentation] Language Agnostic Gesture Generation Model: A Case Study of Japanese Speakers’ Gesture Generation Using English Text-to-Gesture Model2023
- Author(s)
  Genki Sakata, Naoshi Kaneko, Dai Hasegawa and Shinichi Shirakawa
- Organizer
  the 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP 2023) - Volume 2: HUCAPP
- Int'l Joint Research

2022 Fiscal Year Research-status Report

Speech-to-Lecture: 教育エージェントによる学習教材の自動生成

Principal Investigator

長谷川 大 北海学園大学, 工学部, 准教授 (30633268)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Evaluation of text-to-gesture generation model using convolutional neural network2022

Author(s)

Journal Title

DOI

[Presentation] Language Agnostic Gesture Generation Model: A Case Study of Japanese Speakers’ Gesture Generation Using English Text-to-Gesture Model2023

Author(s)

Organizer

長谷川大北海学園大学, 工学部, 准教授 (30633268)