2021 Fiscal Year Annual Research Report

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

Research Project

Project/Area Number	19H04224
Research Institution	Tokyo University of Foreign Studies
Principal Investigator	望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
Co-Investigator(Kenkyū-buntansha)	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 日本語教育
Outline of Annual Research Achievements	前年度から実装に着手していたNグラムの計算を単語レベルから文字レベルNグラムに拡張し，N数の上限をなくすためのアルゴリズムを完成し実装した．単語レベルで１から９単語としていた制限から，１文の全文字数までの制限なしにして計算をする拡張にともない，Nグラムのソートとマージに必要な処理時間とメモリ容量が増加したためサーバのメモリ増強やストレージ増量およびサーバストレージ間の通信速度向上などの環境整備およびアルゴリズムの再考によって対応した．また，単語レベルのNグラムから有意なNグラムを選択する手法として，単純な頻度統計から各Nグラムが出現する文脈を考慮し，同一文脈に出現する異なるNグラムの中で最長のものを抽出する「統合文脈Nグラム」アルゴリズムに変更し，新たなFormulaic Sequences抽出手法を確立した．深層学習によるCan-do会話教材の自動抽出のために，教師データとなる会話データの整備を進めた．具体的には，大規模字幕コーパスの中で会話が豊富に含まれるアニメーション分野について，会話部分のセグメントを約１，６００，人手で取り出し，Can-doとの対応付け作業をおこなった．今後，このデータを，新たな会話部分の抽出とCan-doラベル分類のための機械学習に応用する予定である．２０１２年１２月から続く，大規模字幕コーパスの継続的な拡張は今年度も継続的に実施し，コーパス構築サーバの安定運用の結果，２０２２年３月時点で，約５３万１，０００番組，約１，８５４万文，単語数約１９億９，７２７万語の巨大コーパスに発展している．（前年度から約６万７千番組，約２，２３８万文，約２億４，４９４万語の増加）
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き，取得サーバの運用を順調に行うことができている．前年度以降済みの新サーバは安定運用しておりコーパスデータは順調に規模を拡大している．９年分，５３万１千番組，１億８千５百万文，１９億９千７百万語の規模に到達している．Formulaic Sequences (FS)の計算では，FSの基準単位を文字レベルNグラムで文字数制限なしにしての取得も可能になった．また，新たな統合文脈NグラムによるFS抽出への切り替えでFSの抽出精度向上ができた．深層学習のためのCan-do教材会話抽出手法の開発にも着手開始している．
Strategy for Future Research Activity	新たに開発した統合文脈Nグラムにより，FSの再抽出を行う．コーパスが９年分になったので，全コーパスから新しいFSを抽出し，FS2vecを計算する．また，この手法で得られたFSの性質について詳細が明らかでないため，内容を確認する．現在着手中の，大規模字幕コーパスの中でジャンル別に集めたテキストデータごとに分けて現れる語の周辺文脈を利用して，その語がどの程度の寄与率を持つかを測り重み付けをする手法を確立する．また，FS2vecに基づくFSクラスタリングの実装，FSクラスタの場面，機能に基づく分析，FS分散表現をFSの用法ごとに分割する拡張と，各アルゴリズムの洗練を引き続き行う。新し統合文脈Nグラムによる方法においても，文字レベルのNグラムに基づくFS抽出プログラムの実装を行う．また，今年度作成した教師データを用いて，大規模話し言葉コーパスから会話部分を抽出し，Candoとの対応付けおこなう，深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。

Research Products
(2 results)

All Presentation (2 results)

[Presentation] Can-do型日本語学習用資源としてのアニメーション字幕の分析2022
- Author(s)
  大河原龍太朗, 望月源
- Organizer
  言語処理学会第28回年次大会
[Presentation] テレビ字幕データを用いた感情分析による「ある日の日本の気分」推定に関する研究2022
- Author(s)
  イーフエイチー, 望月源
- Organizer
  言語処理学会第28回年次大会