2018 Fiscal Year Final Research Report
Development of CEFR Can-do Language Learning Materials by FS2vec Processing of Large-scale Spoken Language Corpus
Project/Area Number |
15H02794
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Learning support system
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
Mochizuki Hajime 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences |
Outline of Final Research Achievements |
We developed a method for extracting formulaic sequences from Japanese closed caption TV Corpus. In this research we extract signifiant n-grams as candidates for formulaic sequences of continuous words from a CCTV corpus. To calculate n-gram frequencies we developed programs to sort, marge, and count based on the MapReduce algorithm. We examined clustering of discourse segments by topics and scenes and confirmed the existence of suitable can-do statements for them. We have been continuing to build the CCTV corpus. The total number of words in our corpus has reached over 1,300 million morphemes. Regarding the research results, we presented peer-reviewed papers mainly on international academic societies such as AAAL, EDMEDIA, and E-Learn.
|
Free Research Field |
情報科学
|
Academic Significance and Societal Importance of the Research Achievements |
これまで存在していなかった大規模な日本語会話コーパスの構築を続け,6年以上にわたる日本のテレビ番組の字幕データを整備した。規模は35万番組,1億2千4百万文,13億3千6百万語超に達した。この大規模なコーパスから,日本語学習教材にも応用できる特別な意味を持つ複数単語のまとまりであるFormulaic Sequence(定型表現)を大量に抽出した。定型表現を核にして,コーパス内の会話セグメントを取り出し,セグメント内の定型表現が表す機能と,各セグメントの話題,場面をCan-doと対応づけることで有益な教材が作成できることを確認した。
|