Speech-to-Lecture: 教育エージェントによる学習教材の自動生成
Project/Area Number |
21K12160
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62030:Learning support system-related
|
Research Institution | Hokkai-Gakuen University |
Principal Investigator |
長谷川 大 北海学園大学, 工学部, 准教授 (30633268)
|
Co-Investigator(Kenkyū-buntansha) |
金子 直史 青山学院大学, 理工学部, 助教 (40803531)
白川 真一 横浜国立大学, 大学院環境情報研究院, 准教授 (90633272)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
|
Keywords | Pedagogical Agent / ジェスチャ生成 / 教育支援 / ジェスチャ推定 / ジェスチャ / Deep Neural Network / 3次元姿勢推定 |
Outline of Research at the Start |
本研究では、動画像から人体の3次元姿勢推定を行う技術を用いて講義動画像からスピーチと3次元の人体動作の大規模なデータセットを構築する。また、ジェスチャと共起する言語情報を「Word Embedding」によりベクトル表現し、さらに、この言語ベクトルと動作ベクトルを同時に保持・表現可能な 表現系をAuto Encoderにより開発する。最後に本研究で収集・表現された大規模マルチモーダルデータセットから音声時系列情報とジェスチャ時系列情報の関連性を学習可能なDeep Neural Networkの開発を行う。
|
Outline of Annual Research Achievements |
本研究課題は学習者主体の学びを支援するPedagogical Agentを利用した教材開発の簡易化を目標に、大規模なレクチャーデータセットにもとづいたデータド リブンアプローチによる発話音声に対応したジェスチャの自動生成を目的とする。 初年度には既存のレクチャー動画像に対して3次元姿勢推定技術を適用することで、データセットを構築する予定であった。レクチャートークシリーズTEDのYouTubeチャンネル上の動画を3次元データ化し、データセット構築を試みた。しかしながら、TEDシリーズではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また今回適応した姿勢推定処理のうち2次元姿勢データを抽出したのちの3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが予想された。 そのため、本年度は日本語データセットに比べてボリュームの大きい英語データセットを利用して、日本語のスピーチに対するジェスチャ生成を行うことを検討した。具体的には、まず英語スピーチ音声をテキスト化し、英語テキストからジェスチャを生成するモデルを学習する。この際、テキスト情報は、日本語テキストと英語テキストが同じ潜在空間で分散表現されるように学習されたembeddingを用いる。これにより、日本語テキストと英語テキストが意味的に類似する場合、互いに類似した単語ベクトルに変換されるため、英語データセットで学習したジェスチャ生成モデルに日本語テキストを入力することが可能になる。 本手法を用いて、日本語のスピーチ音声をテキスト化し、ジェスチャ生成を試みた結果、単純に日本語を英語に翻訳してジェスチャを生成するより、良好な結果が得られることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初に予定していたTEDシリーズの動画像ではカメラワークによる頻繁な画角切り替えやズームなどの変化があることから良好な姿勢推定結果を得ることが難しいことが明らかになった。また姿勢推定処理のうち2次元姿勢データを抽出した後の3次元姿勢データを推定する処理に非常に時間がかかり、期間内に十分なデータが得られないことが明らかになった。そのため、日本語のデータセットにこだわらず、英語データセットを利用したレクチャー生成に方針を変更したため、計画に遅れが生じている。
|
Strategy for Future Research Activity |
今年度の成果により、日本語テキストと英語テキストが同じ潜在空間で分散表現されるembeddingを用いることにより、英語データセットを利用した日本語のレクチャー生成への道筋が示された。また近年発表されたGesture2Vecは人間の動作表現をより効率的に表現できることが示されているなど、本研究にも応用可能な高度AI技術が散見されるようになってきた。今後は、これらの技術の導入も検討した上で、Pedagogical Agentのレクチャー生成手法の開発を行う。
|
Report
(2 results)
Research Products
(2 results)