2022 Fiscal Year Research-status Report
Designing and Managing a Multi-modal Corpus of English Classes to Empower English Teachers
Project/Area Number |
19K00873
|
Research Institution | Hokkaido University of Education |
Principal Investigator |
片桐 徳昭 北海道教育大学, 教育学部, 教授 (60734829)
|
Co-Investigator(Kenkyū-buntansha) |
大橋 由紀子 ヤマザキ動物看護大学, 動物看護学部, 准教授 (40589793)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 自動書き起こし / トランスクリプト / チャプター / VTT ファイル |
Outline of Annual Research Achievements |
2022年度は、新型肺炎感染症が未だ終息せず、教室でのデータ収集がほとんど見込めない状況が継続した。よって、手持ちのデータや少ないながらも入手できる教室データを利用し、ビデオコーパスの主要な部分を占めるソフトウェア開発を行った。Microsoft Office 上で展開するビデオ処理に関するクローズドキャプション(cc)機能を利用して、アップロードしたビデオからスランスクリプトが生成される機能を活用したテキスト(Vide Text Tracks = VTT)を抽出し、そこからタイムコードや書き起こしを抽出するソフトウェア(Version 1)を開発した。その後、ビデオに付与したチャプチー情報を付与するようにソフトウェアをアップデートした(Verson 2)。以下が、手順の詳細となる。 1) 授業(プレゼンテーション等も含め)ビデオをMicrosoft Office のOne drive上にアップロードする。録画の際は、話者の音声を明瞭にするため、bluetoothタイプのマイクを利用する。 2) Microsoft Office 上で英語英語の書き起こしをする。この時en.US.vttという英語の書き起こしをしたテキストファイルが生成されるので、これをダウンロードする。 3) 手順2)で同じビデオで日本語の書き起こしをする。この時jpse.vttという日本語のファイルが生成される。 4) 開発したソフトウエア上に 2)と3) のファイルを入力する。2)の英語と3)の日本語のファイルが合体して一つのトランスクリプトファイルとなる。元のビデオを視聴しながら、合体したファイルの不要な部分を削除する。ここまでの作業により、従来は、人の耳と手作業でで行っていた、音声書き起こし作業の時間が大幅に短縮され、音声コーパスの作成が相対的により容易となる。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型肺炎感染症が未だ終息せず、データ収集計画の策定の再検討をして、研究方針をシステム構築に転換するという決定をするまでに時間を要した。システム構築するために手持ちのデータの整理や、構築したシステムをソフトウエアに流し込むための業者との会議やソフトウエア作成に関しての技術的な問題の解決方法にむけたすり合わせに時間を要し、ソフトアエアの納品が年度末ギリギリなった。そのため、実際にデータを活用して、コーパスを構築するステージが残ったままとなっている。
|
Strategy for Future Research Activity |
今後は、開発したソフトウェアにデータを載せて、コーパス構築までの手順の検証をする予定。新型肺炎感染症の終息が宣言されたので、教室でのデータ収集を再開し、データ蓄積を進めると同時に、ビデオコーパスの蓄積と試用版の一般公開に向けて準備する方針である。
|
Causes of Carryover |
新型肺炎感染症が終息せず、出張がなかったために未使用額が生じた。次年度(2023年度)は学会発表が対面形式で予定されているため、旅費として試用予定。
|