研究課題/領域番号 |
21K12160
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62030:学習支援システム関連
|
研究機関 | 北海学園大学 |
研究代表者 |
長谷川 大 北海学園大学, 工学部, 教授 (30633268)
|
研究分担者 |
金子 直史 東京電機大学, 未来科学部, 准教授 (40803531)
白川 真一 横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | Pedagogical Agent / ジェスチャ生成 / 教育支援 / ジェスチャ推定 / ジェスチャ / Deep Neural Network / 3次元姿勢推定 |
研究開始時の研究の概要 |
本研究では、動画像から人体の3次元姿勢推定を行う技術を用いて講義動画像からスピーチと3次元の人体動作の大規模なデータセットを構築する。また、ジェスチャと共起する言語情報を「Word Embedding」によりベクトル表現し、さらに、この言語ベクトルと動作ベクトルを同時に保持・表現可能な 表現系をAuto Encoderにより開発する。最後に本研究で収集・表現された大規模マルチモーダルデータセットから音声時系列情報とジェスチャ時系列情報の関連性を学習可能なDeep Neural Networkの開発を行う。
|
研究実績の概要 |
本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータド リブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。 前年度は日本語テキストと英語テキストが同じ潜在空間で分散表現されるように学習されたembeddingを用いることにより、英語データセットで学習したジェスチャ生成モデルに日本語を入力してジェスチャ生成が可能であることを確認した。また、近年発表されたGesture2VecはVQ-VAEによりジェスチャ系列の表現を獲得し、人間が産出したジェスチャのような自然さをもつジェスチャの生成に成功している。 このことから、インプットする音声やテキストデータの表現だけでなく、アウトプットとなる動作の表現系を工夫することで、より意味的かつ形態的特徴を捉えたジェスチャの生成が可能になると考えられる。そこで、研究担当者らが所持する日本語のジェスチャデータセットにおいてもVQ-VAEを用いたジェスチャ生成を試みたが、VQ-VAEのコードブック崩壊がおき、学習が安定しない現象がみられた。 そこで、今年度はVQ-VAEを改善したSQ-VAEを階層化したモデルによるジェスチャ生成に取り組んだ。実験では、両腕8関節分の72次元x20フレーム分の姿勢ベクトル系列を504次元の離散表現に変換し、離散表現から元の姿勢系列を再構築するよう Hierachical SQ-VAE の学習を行なった。学習後のモデルによ り、離散表現への変換およびジェスチャ系列の再構成を試みた結果、元のジェスチャの特徴を捉えた再構築結果が確認された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになったが、日本語のデータセットにこだわらず、英語データセットを利用したレクチャー生成に方針を変更した。また近年発表された技術によるジェスチャ生成がこれまでと一線を画したものであったため、この技術を取り入れざるを得ず、ジェスチャ生成の基盤となる動作表現系の再検討をおこなった。これらの事由によって計画にやや遅れが生じた。
|
今後の研究の推進方策 |
言語を問わずレクチャー時のジェスチャデータセットを検討する。また、今年度検討を行ったSQ-VAEを用いて獲得されたジェスチャ表現を利用したレクチャー時のジェスチャ生成を試みる。一方で、近年は拡散モデルによるジェスチャ生成の研究成果も発表されているため、同時に拡散モデルによるレクチャー時のジェスチャ生成も試行し、比較を行う。
|