2018 Fiscal Year Annual Research Report

Development of CEFR Can-do Language Learning Materials by FS2vec Processing of Large-scale Spoken Language Corpus

Research Project

Project/Area Number	15H02794
Research Institution	Tokyo University of Foreign Studies
Principal Investigator	望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
Co-Investigator(Kenkyū-buntansha)	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024) 佐野洋東京外国語大学, 大学院総合国際学研究院, 教授 (30282776) 藤村知子東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
Project Period (FY)	2015-04-01 – 2019-03-31
Keywords	学習コンテンツ開発支援 / eラーニング / 日本語教育 / Formulaic Sequence
Outline of Annual Research Achievements	本研究では研究開始段階の３億３千万語分のテレビ字幕データから，大規模コーパスの拡張を行った。今年度までに，35万番組，１億２千４百万分，１３億３千６百万語超に到達し，大規模会話コーパスを構築した。このコーパスから，複数単語を組み合わせた数百万通りの文字列パターンの頻度統計を取り，断片的な字幕データを字幕の表示時間に基づいて文する際に，字幕データに存在する句読点表示の有無など，表記の揺れに対して，個別の番組データを参照し，プログラムに反映させることで，文復元の精度を向上させた。 FS抽出の際にFSの出現位置を記録する記号化の書式を改善し，今後増え続けるデータの世代管理を可能にする改良を行った。これによりデータ量の関係で難しかった文字単位でのnグラム抽出の目処をたてることができた。FSをキーとした会話セグメントの検索，FS2vec型のDoc2vecによるセグメント間類似度計算，SVDでの次元縮退，K-means法によるクラスタリングの一連のプログラムを完成させた。具体的な対象として，ドラマ，バラエティ，情報番組の中で「いらっしゃいませ」「ください」を含む約1800会話セグメントを15クラスタに分割し，会話セグメント内の話題や場面による分類と対応可能なCan-doを調査した。各クラスタ内の文について，存在するFSを取り出したところ，1つのクラスタに複数回出現するFSが一定数存在すること，またFSの多くは文末の位置に出現すること，話題や場面に関する語までを含むFSは多くないことがわかった。この結果として，文中のFSは文の機能に関係し，FS以外の名詞周辺の語は話題や場面に関係すると想定できることが確認できた。
Research Progress Status	平成30年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	平成30年度が最終年度であるため、記入しない。

Research Products
(1 results)

All Presentation (1 results) (of which Int'l Joint Research: 1 results)

[Presentation] Investigation of Words in Japanese Closed Caption TV Corpus2019
- Author(s)
  Hajime Mochizuki
- Organizer
  STEM & STEAM Education Conference, 2019
- Int'l Joint Research