2021 年度実施状況報告書

Speech-to-Lecture: 教育エージェントによる学習教材の自動生成

研究課題

研究課題/領域番号	21K12160
研究機関	北海学園大学
研究代表者	長谷川大北海学園大学, 工学部, 准教授 (30633268)
研究分担者	金子直史青山学院大学, 理工学部, 助教 (40803531) 白川真一横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
研究期間 (年度)	2021-04-01 – 2025-03-31
キーワード	Pedagogical Agent / ジェスチャ推定 / 教育支援
研究実績の概要	本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータドリブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。そのために、初年度はデータセットの整備を行うことを予定していた。高精度なモーションキャプチャ設備を利用した従来のデータ収録では大規模なデータセットを作成することが難しいため、既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する。本研究ではまずレクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。そこで、収集対象とするレクチャー動画像を画角変化の少ないものに限定した。収集された動画像の多くはYouTube上にアップロードされている高校生を対象とした講義映像となった。これらの動画像に対して、今後2次元姿勢データの抽出を行い、これをデータセットとして今後のジェスチャ推定を行うこととした。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想されたが、対象とする動画像を変更したため、これに対して、2次元姿勢データの抽出を行うことで対応する。
今後の研究の推進方策	今後は言語的側面を考慮したジェスチャのための新たな動作表現系の開発を行う。まず、収集した動画像にたいして2次元姿勢データ抽出をおこなう。次に、大規模データセット内の音声情報を音声認識技術によりテキスト化する。「Word Embedding」によりデータセット内の単語をベクトル空間で表現し、音声情報と言語情報から姿勢を推定するための基礎データを作成する。
次年度使用額が生じた理由	RTX3090搭載のGPU計算サーバを購入予定であったが、GPU価格の高騰により購入できなくなったため、購入を次年度に見送った。

研究成果

(1件)

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件)

[雑誌論文] Evaluation of text-to-gesture generation model using convolutional neural network2022
- 著者名/発表者名
  Eiichi Asakawa, Naoshi Kaneko, Dai Hasegawa, Shinichi Shirakawa
- 雑誌名
  
  Neural Networks
  
  巻: 151 ページ: 365-375
- DOI
  10.1016/j.neunet.2022.03.041
- 査読あり / オープンアクセス