• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

準均衡超大規模日本語コーパスと高速検索ツールの開発

研究課題

研究課題/領域番号 18H03575
研究機関早稲田大学

研究代表者

今井 新悟  早稲田大学, 日本語教育研究センター, 教授 (50346582)

研究分担者 PARDESHI P.V.  大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子  筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達  佐賀大学, 国際交流推進センター, 講師 (70599985)
家根橋 伸子  東亜大学, 人間科学部, 教授 (80609652)
研究期間 (年度) 2018-04-01 – 2020-03-31
キーワードコーパス / 超大規模 / アノテーション / 機能語
研究実績の概要

超大規模コーパス構築のため、前年度に作成したクローラーを用いて、ウェブページの収集を継続して行った。その結果、約8100万ファイルのウェブページの収集を行うことができた。当初予定の1億ファイルには届かなかったものの、それに近い数の収集ができた。
続いて、データクリーニングを行った。収集したデータには、head要素、script要素、タグなどの、コーパスには不要な情報が含まれているので、それらの情報を削除した。その上でテキストを抽出し、エンコーディングをすべてUTF-8にした。さらにテキストには、広告やリンクなどの当該ウエブページの本文とは言えない情報が含まれているので、それらを除去した。
得られたテキストに対して、UniDic(辞書)を使用して形態素分析を行い、その結果得られた形態素(語彙素)に対して、品詞や活用などの情報を付与するアノテーション作業を実施した。
コーパスの検索時に用いる、機能語・機能表現のリストを作成した。既存の機能語を扱った複数の辞書やリスト(機能語用例データベース「はごろも」、『日本語文型辞典』など)を用い、それらで扱われている見出し項目をすべて収集することによって、第一次候補としての機能語・機能表現の項目が最大になるリストを準備した。このリストを精査して、最終的なリストにしていく作業が残されている。この作業を通して得られた成果・知見は、『日本語文型バンク』(国立国語研究所)に提供され、その構築に寄与した。また、その成果を教科書開発に生かす方法についても考察した。

現在までの達成度 (段落)

令和元年度が最終年度であるため、記入しない。

今後の研究の推進方策

令和元年度が最終年度であるため、記入しない。

  • 研究成果

    (2件)

すべて 2019 その他

すべて 学会発表 (1件) (うち国際学会 1件) 備考 (1件)

  • [学会発表] What are the tasks? :Development of task-based Japanese beginner's textbook2019

    • 著者名/発表者名
      Li Wenxin, Reiko Sakata, Shingo Imai
    • 学会等名
      Eighth International Conference on Task-Based Language Teaching
    • 国際学会
  • [備考] 日本語文型バンク

    • URL

      http://bunkeibank.ninjal.ac.jp/

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi