• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Annual Research Report

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

Research Project

Project/Area Number 19H04224
Research InstitutionTokyo University of Foreign Studies

Principal Investigator

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

Co-Investigator(Kenkyū-buntansha) 芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)
Project Period (FY) 2019-04-01 – 2023-03-31
Keywords学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 日本語教育
Outline of Annual Research Achievements

前年度から実装に着手していたNグラムの計算を単語レベルから文字レベルNグラムに拡張し,N数の上限をなくすためのアルゴリズムを完成し実装した.単語レベルで1から9単語としていた制限から,1文の全文字数までの制限なしにして計算をする拡張にともない,Nグラムのソートとマージに必要な処理時間とメモリ容量が増加したためサーバのメモリ増強やストレージ増量およびサーバストレージ間の通信速度向上などの環境整備およびアルゴリズムの再考によって対応した.
また,単語レベルのNグラムから有意なNグラムを選択する手法として,単純な頻度統計から各Nグラムが出現する文脈を考慮し,同一文脈に出現する異なるNグラムの中で最長のものを抽出する「統合文脈Nグラム」アルゴリズムに変更し,新たなFormulaic Sequences抽出手法を確立した.
深層学習によるCan-do会話教材の自動抽出のために,教師データとなる会話データの整備を進めた.具体的には,大規模字幕コーパスの中で会話が豊富に含まれるアニメーション分野について,会話部分のセグメントを約1,600,人手で取り出し,Can-doとの対応付け作業をおこなった.今後,このデータを,新たな会話部分の抽出とCan-doラベル分類のための機械学習に応用する予定である.
2012年12月から続く,大規模字幕コーパスの継続的な拡張は今年度も継続的に実施し,コーパス構築サーバの安定運用の結果,2022年3月時点で,約53万1,000番組,約1,854万文,単語数約19億9,727万語の巨大コーパスに発展している.(前年度から約6万7千番組,約2,238万文,約2億4,494万語の増加)

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き,取得サーバの運用を順調に行うことができている.前年度以降済みの新サーバは安定運用しておりコーパスデータは順調に規模を拡大している.9年分,53万1千番組,1億8千5百万文,19億9千7百万語の規模に到達している.Formulaic Sequences (FS)の計算では,FSの基準単位を文字レベルNグラムで文字数制限なしにしての取得も可能になった.また,新たな統合文脈NグラムによるFS抽出への切り替えでFSの抽出精度向上ができた.深層学習のためのCan-do教材会話抽出手法の開発にも着手開始している.

Strategy for Future Research Activity

新たに開発した統合文脈Nグラムにより,FSの再抽出を行う.コーパスが9年分になったので,全コーパスから新しいFSを抽出し,FS2vecを計算する.また,この手法で得られたFSの性質について詳細が明らかでないため,内容を確認する.
現在着手中の,大規模字幕コーパスの中でジャンル別に集めたテキストデータごとに分けて現れる語の周辺文脈を利用して,その語がどの程度の寄与率を持つかを測り重み付けをする手法を確立する.また,FS2vecに基づくFSクラスタリングの実装,FSクラスタの場面,機能に基づく分析,FS分散表現をFSの用法ごとに分割する拡張と,各アルゴリズムの洗練を引き続き行う。新し統合文脈Nグラムによる方法においても,文字レベルのNグラムに基づくFS抽出プログラムの実装を行う.
また,今年度作成した教師データを用いて,大規模話し言葉コーパスから会話部分を抽出し,Candoとの対応付けおこなう,深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。

  • Research Products

    (2 results)

All 2022

All Presentation (2 results)

  • [Presentation] Can-do型日本語学習用資源としてのアニメーション字幕の分析2022

    • Author(s)
      大河原龍太朗, 望月源
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] テレビ字幕データを用いた感情分析による「ある日の日本の気分」推定に関する研究2022

    • Author(s)
      イーフエイチー, 望月源
    • Organizer
      言語処理学会第28回年次大会

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi