2022 年度研究成果報告書

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

研究課題

PDF

研究課題/領域番号	19H04224
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分62030:学習支援システム関連
研究機関	東京外国語大学
研究代表者	望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
研究分担者	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences
研究成果の概要	我々は，これまでなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発し，複数の語，単語を組み合わせた定型表現（フォーミュライックシーケンス，FS）を抽出した。FSの分散表現でのクラスタリングにより表層表現は異なるが機能的に類似した「機能別フレーズ集合」としてFSのクラスタを獲得できることが確認できた。コーパス内の会話部分とCan-doを対応づけした教師データを作成し深層学習モデルによる教材会話の自動抽出も試み一定の成果を得た。字幕コーパスは拡張を続け，22億語規模に拡大した。研究成果は，EDMEDIA,E-Learnなどの国際学会を中心に査読付き論文発表を行なった。
自由記述の分野	情報科学
研究成果の学術的意義や社会的意義	大規模日本語会話コーパスの構築を続け，10年以上にわたる日本のテレビ番組の字幕データを整備し，59万8千番組，2億8百文，22億5千万語超に達した。また，コーパスの語彙調査を行い，テレビ字幕データが言語教材として十分に有益であることを確認した。これまで実現していなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発したコーパス内のすべての文から定型表現としてフォーミュライックシーケンス，FSの抽出を行い，FSが日本語教科書の重要フレーズを含むことを確認した。日本語Can-doに対応した会話データを教師データとして整備し，機械学習モデルでの会話セグメント自動抽出を行った。