Designing and Managing a Multi-modal Corpus of English Classes to Empower English Teachers
Project/Area Number |
19K00873
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02100:Foreign language education-related
|
Research Institution | Hokkaido University of Education |
Principal Investigator |
片桐 徳昭 北海道教育大学, 教育学部, 教授 (60734829)
|
Co-Investigator(Kenkyū-buntansha) |
大橋 由紀子 ヤマザキ動物看護大学, 動物看護学部, 准教授 (40589793)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 自動書き起こし / トランスクリプト / チャプター / VTT ファイル / 編集機能改良 / 修正の簡便化 / 発話者の属性 / 分析の簡便化 / 音声認識 / 画像情報 / 発音 / デジタルワイヤレス / オーディオプロセッサー / multi-modal / interface / voice recognition / English lessons / teacher training |
Outline of Research at the Start |
本研究の目的は、小・中英語授業データを基盤とし、音声・映像情報と結合させた公開用大規模マルチモーダルコーパスの開発と、コーパス構築のための自動タグ付与システムの構築、およびweb場での公開と活用である。これにより、様々な英語授業の情報(授業目標等・発話・談話等)が一元化され、授業者の振り返り・教師教育・研究者へのデータ提供が可能となり、コーパスデータの汎用性が高まる。そこで、本研究は今後さらに大規模化するコーパスデータをweb上で蓄積・管理した上で公開するシステム開発により、リアルタイムで、授業データを蓄積して、教師教育や研究者に対する簡便なデータ提供の方法を確立することを目指す。
|
Outline of Annual Research Achievements |
2022年度は、新型肺炎感染症が未だ終息せず、教室でのデータ収集がほとんど見込めない状況が継続した。よって、手持ちのデータや少ないながらも入手できる教室データを利用し、ビデオコーパスの主要な部分を占めるソフトウェア開発を行った。Microsoft Office 上で展開するビデオ処理に関するクローズドキャプション(cc)機能を利用して、アップロードしたビデオからスランスクリプトが生成される機能を活用したテキスト(Vide Text Tracks = VTT)を抽出し、そこからタイムコードや書き起こしを抽出するソフトウェア(Version 1)を開発した。その後、ビデオに付与したチャプチー情報を付与するようにソフトウェアをアップデートした(Verson 2)。以下が、手順の詳細となる。 1) 授業(プレゼンテーション等も含め)ビデオをMicrosoft Office のOne drive上にアップロードする。録画の際は、話者の音声を明瞭にするため、bluetoothタイプのマイクを利用する。 2) Microsoft Office 上で英語英語の書き起こしをする。この時en.US.vttという英語の書き起こしをしたテキストファイルが生成されるので、これをダウンロードする。 3) 手順2)で同じビデオで日本語の書き起こしをする。この時jpse.vttという日本語のファイルが生成される。 4) 開発したソフトウエア上に 2)と3) のファイルを入力する。2)の英語と3)の日本語のファイルが合体して一つのトランスクリプトファイルとなる。元のビデオを視聴しながら、合体したファイルの不要な部分を削除する。ここまでの作業により、従来は、人の耳と手作業でで行っていた、音声書き起こし作業の時間が大幅に短縮され、音声コーパスの作成が相対的により容易となる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型肺炎感染症が未だ終息せず、データ収集計画の策定の再検討をして、研究方針をシステム構築に転換するという決定をするまでに時間を要した。システム構築するために手持ちのデータの整理や、構築したシステムをソフトウエアに流し込むための業者との会議やソフトウエア作成に関しての技術的な問題の解決方法にむけたすり合わせに時間を要し、ソフトアエアの納品が年度末ギリギリなった。そのため、実際にデータを活用して、コーパスを構築するステージが残ったままとなっている。
|
Strategy for Future Research Activity |
今後は、開発したソフトウェアにデータを載せて、コーパス構築までの手順の検証をする予定。新型肺炎感染症の終息が宣言されたので、教室でのデータ収集を再開し、データ蓄積を進めると同時に、ビデオコーパスの蓄積と試用版の一般公開に向けて準備する方針である。
|
Report
(4 results)
Research Products
(3 results)