2019 Fiscal Year Annual Research Report

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

Research Project

Project/Area Number	19H04224
Research Institution	Tokyo University of Foreign Studies
Principal Investigator	望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
Co-Investigator(Kenkyū-buntansha)	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 分散表現 / 日本語教育
Outline of Annual Research Achievements	本研究では，語の多様性とは何か，各語義が分散表現上でどのように重みづけられるのかを探ることで，word2vecにより語の多義をまとめて表現された分散表現を個別語義文脈によって分割する計算方法を探っている．本年度においては，辞書の語義ごとの重要度の重み付けをする手法を検討，語義ごとの周辺文脈の情報を利用して語の分散表現を分割するための意味計算を検討した．辞書の語義ごとの用例を対象として，用例文内の単語列から見出し語の語義の決定に寄与する単語の判定をする方法を検討した．また，Formulaic Sequences(FS)を抽出するアルゴリズムを再検討し，これまで収集した全コーパスへの適応を行った．FSの抽出を単語レベルのNグラムから，文字レベルのNグラムに拡張するため，実装アルゴリズムの検討を始めた．さらに，先行の基盤研究Bからの継続的な事業として，引き続き，大規模テレビ字幕コーパスの拡大構築を行っている．本研究開始時点の35万番組，1億2千4百万文，13億3千6百万語規模から，本年度末の段階で，41万8千番組，4394時間，1億4千6百万文，15億8千4百万語に規模を拡張した．収集したコーパスにおける単語の異なり語数，異なり語ごとの出現頻度，品詞別出現頻度などの基本語彙調査を行いコーパスに現れる言語とつして基本的な特徴を確認した．各年ごとの推移を過去6年間について比較したところ，少なくとも頻出する上位数百語についてはどのとしもほぼ同様の傾向が見られ言語使用の普遍性が確認された．学習すべき表現のリストが存在することが暗示された．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き取得サーバの運用が行えている．結果としてコーパス構築も順調に進んでおり，７年分，４１万８千番組，４３９４時間，１億４千６百万文，１５億８千４百万語の規模に到達している．Formulaic Sequences (FS)の計算は，１年単位で処理を行い，収集したデータ全体に対して適用することが可能になった．またFSの基準単位を単語Nグラムから文字Nグラムに切り替えるための検討に取り掛かることができた．
Strategy for Future Research Activity	本年度は，2019年度に引き続き，辞書の語義ごとの用例を対象として，用例文内の単語列から見出し語の語義の決定に寄与する語を判定する。また，大規模コーパス中に現れる語の周辺文脈についても，その語かどの程度の寄与率を持つかを測り重み付けをする手法を検討する。また，昨年度に引き続き，TV字幕に基づく大規模話し言葉コーパスからのFS抽出を行い，word2vecをFSによって拡張したFS2vecによりFSの分散表現を獲得する。また，単語レベルNグラムに基づくFS抽出に加えて，語レベルのNグラムに基づくFS抽出プログラムの実装をする。引き続き，FSのクラスタリング手法を開発し，FSクラスタ内の各FS内の場面，機能について調査し項目をリストアップする。 Can-do教材抽出では，昨年度に引き続き，大規模話し言葉コーパスから会話部分を抽出し，Can-doとの対応付けによる教師データを作成する。深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。

Research Products
(3 results)

All 2020 2019

All Presentation (3 results)

[Presentation] 中国語母語話者の日本語学習におけるL1L2字幕利用の考察2020
- Author(s)
  王楽淑 and 望月源 and 鈴木美加
- Organizer
  言語処理学会第26回年次大会
[Presentation] Investigation of Words in a Japanese Closed Caption TV Corpus2019
- Author(s)
  Hajime Mochizuki
- Organizer
  Hawaii University Conferences, STAM/STEAM Education Conference, 2019
[Presentation] Incorporating a State-of-the-Art Speech Recognition to a Japanese Language e-Learning System2019
- Author(s)
  Hajime Mochizuki and Kohji Shibano
- Organizer
  E-Learn: World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2019

2019 Fiscal Year Annual Research Report

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

Principal Investigator

望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

Current Status of Research Progress

Reason

Research Products

[Presentation] 中国語母語話者の日本語学習におけるL1L2字幕利用の考察2020

Author(s)

Organizer

[Presentation] Investigation of Words in a Japanese Closed Caption TV Corpus2019

Author(s)

Organizer

[Presentation] Incorporating a State-of-the-Art Speech Recognition to a Japanese Language e-Learning System2019

Author(s)

Organizer

望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)