本研究では,大規模字幕コーパスを対象に,各文に出現する文字単位での全Nグラム,および,形態素解析結果を用いた単語単位での全Nグラムを計算し,それぞれの単位での異なりNグラムについて,コーパス内の全出現文リストを比較し,出現文が完全に一致する異なりNグラムをソートし,包含関係にあるNグラム集合の中で最長のNグラムを有意なNグラムとして抽出する独自の統合文脈Nグラム分析を開発した.複数の語や単語の組み合わせからなるこのNグラムを日本語教育における教科書のキーフレーズとの一致度に基づいて評価し334のキーフレーズの約83.2%が含まれることを確認し,言語教材として重要なフレーズが取得できることが明らかになった. また,抽出したNグラムを定型表現(Formulaic Sequences,FS)とみなし,字幕コーパス内の全文をFS単位に分割した後,FSによる分散表現であるFS2vecを計算することでFS間の類似度を直接計算できる状態に整備した.このFS2vecに基づいて,抽出したFSをクラスタリングしたところ,表層表現は異なるものの機能的に類似した効果を持つ表現が同じクラスタに集まる明確な傾向が確認できた. また,大規模字幕データ内に含まれる会話部分とCan-doリストとの対応付けを行った約1,600の会話データを用いて,機械学習に基づくセグメント境界推定による会話抽出を行った.Bertによる事前学習モデルともとのテキストからのCan-do会話部分を抽出するためのファインチューニングを行い約63パーセントの精度を得ている.今後の会話抽出精度を向上させる余地があるが,全体として,我々の大規模字幕コーパスが教材として有効であり,有効な言語教材の自動抽出について一定の成果が得られた.
|