Development of CEFR Can-do Language Learning Materials by FS2vec Processing of Large-scale Spoken Language Corpus
Project/Area Number |
15H02794
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Learning support system
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
Mochizuki Hajime 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Project Status |
Completed (Fiscal Year 2018)
|
Budget Amount *help |
¥15,340,000 (Direct Cost: ¥11,800,000、Indirect Cost: ¥3,540,000)
Fiscal Year 2018: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2017: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2016: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2015: ¥4,940,000 (Direct Cost: ¥3,800,000、Indirect Cost: ¥1,140,000)
|
Keywords | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences / Formulaic Sequence / 学習コンテンツ開発 |
Outline of Final Research Achievements |
We developed a method for extracting formulaic sequences from Japanese closed caption TV Corpus. In this research we extract signifiant n-grams as candidates for formulaic sequences of continuous words from a CCTV corpus. To calculate n-gram frequencies we developed programs to sort, marge, and count based on the MapReduce algorithm. We examined clustering of discourse segments by topics and scenes and confirmed the existence of suitable can-do statements for them. We have been continuing to build the CCTV corpus. The total number of words in our corpus has reached over 1,300 million morphemes. Regarding the research results, we presented peer-reviewed papers mainly on international academic societies such as AAAL, EDMEDIA, and E-Learn.
|
Academic Significance and Societal Importance of the Research Achievements |
これまで存在していなかった大規模な日本語会話コーパスの構築を続け,6年以上にわたる日本のテレビ番組の字幕データを整備した。規模は35万番組,1億2千4百万文,13億3千6百万語超に達した。この大規模なコーパスから,日本語学習教材にも応用できる特別な意味を持つ複数単語のまとまりであるFormulaic Sequence(定型表現)を大量に抽出した。定型表現を核にして,コーパス内の会話セグメントを取り出し,セグメント内の定型表現が表す機能と,各セグメントの話題,場面をCan-doと対応づけることで有益な教材が作成できることを確認した。
|
Report
(5 results)
Research Products
(25 results)