• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

Development of quasi-balanced ultra large-scale Japanese corpus and its high-speed search tool

Research Project

Project/Area Number 18H03575
Research InstitutionWaseda University

Principal Investigator

今井 新悟  早稲田大学, 日本語教育研究センター, 教授 (50346582)

Co-Investigator(Kenkyū-buntansha) PARDESHI P.V.  大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子  筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達  佐賀大学, 国際交流推進センター, 講師 (70599985)
家根橋 伸子  東亜大学, 人間科学部, 教授 (80609652)
Project Period (FY) 2018-04-01 – 2020-03-31
Keywordsコーパス / 超大規模 / アノテーション / 機能語
Outline of Annual Research Achievements

超大規模コーパス構築のため、前年度に作成したクローラーを用いて、ウェブページの収集を継続して行った。その結果、約8100万ファイルのウェブページの収集を行うことができた。当初予定の1億ファイルには届かなかったものの、それに近い数の収集ができた。
続いて、データクリーニングを行った。収集したデータには、head要素、script要素、タグなどの、コーパスには不要な情報が含まれているので、それらの情報を削除した。その上でテキストを抽出し、エンコーディングをすべてUTF-8にした。さらにテキストには、広告やリンクなどの当該ウエブページの本文とは言えない情報が含まれているので、それらを除去した。
得られたテキストに対して、UniDic(辞書)を使用して形態素分析を行い、その結果得られた形態素(語彙素)に対して、品詞や活用などの情報を付与するアノテーション作業を実施した。
コーパスの検索時に用いる、機能語・機能表現のリストを作成した。既存の機能語を扱った複数の辞書やリスト(機能語用例データベース「はごろも」、『日本語文型辞典』など)を用い、それらで扱われている見出し項目をすべて収集することによって、第一次候補としての機能語・機能表現の項目が最大になるリストを準備した。このリストを精査して、最終的なリストにしていく作業が残されている。この作業を通して得られた成果・知見は、『日本語文型バンク』(国立国語研究所)に提供され、その構築に寄与した。また、その成果を教科書開発に生かす方法についても考察した。

Research Progress Status

令和元年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

令和元年度が最終年度であるため、記入しない。

  • Research Products

    (2 results)

All 2019 Other

All Presentation (1 results) (of which Int'l Joint Research: 1 results) Remarks (1 results)

  • [Presentation] What are the tasks? :Development of task-based Japanese beginner's textbook2019

    • Author(s)
      Li Wenxin, Reiko Sakata, Shingo Imai
    • Organizer
      Eighth International Conference on Task-Based Language Teaching
    • Int'l Joint Research
  • [Remarks] 日本語文型バンク

    • URL

      http://bunkeibank.ninjal.ac.jp/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi