2021 Fiscal Year Research-status Report
Speech-to-Lecture: 教育エージェントによる学習教材の自動生成
Project/Area Number |
21K12160
|
Research Institution | Hokkai-Gakuen University |
Principal Investigator |
長谷川 大 北海学園大学, 工学部, 准教授 (30633268)
|
Co-Investigator(Kenkyū-buntansha) |
金子 直史 青山学院大学, 理工学部, 助教 (40803531)
白川 真一 横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Keywords | Pedagogical Agent / ジェスチャ推定 / 教育支援 |
Outline of Annual Research Achievements |
本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータド リブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。そのために、初年度はデータセットの整備を行うことを予定していた。 高精度なモーションキャプチャ設備を利用した従来のデータ収録では大規模なデータセットを作成することが難しいため、既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する。本研究ではまずレクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。 そこで、収集対象とするレクチャー動画像を画角変化の少ないものに限定した。収集された動画像の多くはYouTube上にアップロードされている高校生を対象とした講義映像となった。これらの動画像に対して、今後2次元姿勢データの抽出を行い、これをデータセットとして今後のジェスチャ推定を行うこととした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想されたが、対象とする動画像を変更したため、これに対して、2次元姿勢データの抽出を行うことで対応する。
|
Strategy for Future Research Activity |
今後は言語的側面を考慮したジェスチャのための新たな動作表現系の開発を行う。まず、収集した動画像にたいして2次元姿勢データ抽出をおこなう。次に、大規模データセット内の音声情報を音声認識技術によりテキスト化する。 「Word Embedding」によりデータセット内の単語をベクトル空間で表現し、音声情報と言語情報から姿勢を推定するための基礎データを作成する。
|
Causes of Carryover |
RTX3090搭載のGPU計算サーバを購入予定であったが、GPU価格の高騰により購入できなくなったため、購入を次年度に見送った。
|