• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Annual Research Report

Development of quasi-balanced ultra large-scale Japanese corpus and its high-speed search tool

Research Project

Project/Area Number 18H03575
Research InstitutionWaseda University

Principal Investigator

今井 新悟  早稲田大学, 日本語教育研究センター, 教授 (50346582)

Co-Investigator(Kenkyū-buntansha) PARDESHI P.V.  大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子  筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達  佐賀大学, 国際交流推進センター, 講師 (70599985)
今村 泰也  大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 研究員 (80535542)
家根橋 伸子  東亜大学, 人間科学部, 教授 (80609652)
Project Period (FY) 2018-04-01 – 2020-03-31
Keywordsコーパス / 超大規模 / 日本語 / 準均衡コーパス / 機能語
Outline of Annual Research Achievements

超大規模な日本語ウェブコーパスを構築するために、ウェブページを収集し、テキスト化する作業を以下の手順で行った。まず、「現代日本語書き言葉均衡コーパス」BCCWJの語彙素レベルの頻度表を作成し、高頻度の内容語(動詞、イ形容詞、ナ形容詞、名詞)からシードとなる語彙素を選定した。次に、3つのシードをランダムに組み合わせたタプル(例:法律+答える+人々、条件+とても+様々 など)を500万組作成し、Bing WEB Search APIを使って、タプルが含まれるウェブページのURLを収集した。
予定では1億URLを収集する計画であったが、1回目の収集ではそれが達成できなかったため、以下の検証を行った。まず、Bing WEB Search APIで取得されるURLには20%程度の重複があることが明らかになったため、重複率を下げる方法として、シードの頻度範囲とシード数を調整して、最も効率のいい組み合わせを求める実験を行った。その結果、シードの数は1000個で、範囲は頻度順位1~1500位が最も効率がよいことが判明した。この結果に基づいて、Bing WEB Search APIを用いて、リクエスト数を段階的に増やしてURLの収集を継続した。
上記の方法でもなお1億URLに届かなかったため、別途、ウェブページを収集するためのクローラーを開発した。このクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築する。
上記データ収集に加えて、機能語のリストの構築を行った。その結果は、NLB 機能表現検索(暫定版)の基礎資料となった。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

WEB Search APIでのURL収集で目標としていた1億URLに届かなかった。そのため、当初の予定にはなかった、その原因の検証と対応策の策定という作業が発生した。

Strategy for Future Research Activity

WEB Search APIでのURL収集で目標としていた1億URLに届かなかったため、別途クローラーを作成して、URL収集の上積みを図ることとした。2019年度はこのクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築することとした。

  • Research Products

    (8 results)

All 2018 Other

All Presentation (6 results) (of which Invited: 4 results) Book (1 results) Remarks (1 results)

  • [Presentation] 翻訳リソースとしてのコーパスの活用法およびその指導2018

    • Author(s)
      砂川有里子
    • Organizer
      2018年度大学日本語セミナー「タイの日本語教育における翻訳授業を考える」
    • Invited
  • [Presentation] 日本語教育に役立つコーパスの使い方2018

    • Author(s)
      砂川有里子
    • Organizer
      ユライドブリラ大学プーラ主催国際シンポジウム「新世代の日本語学習」
  • [Presentation] 日本語教育と研究に役立つコーパス調査の方法2018

    • Author(s)
      砂川有里子
    • Organizer
      台湾大学総合教学館
    • Invited
  • [Presentation] 日本語教育と研究に役立つコーパス調査の方法2018

    • Author(s)
      砂川有里子
    • Organizer
      靜宜大学伯鐸樓
    • Invited
  • [Presentation] 日本語教育に役立つコーパスの使い方2018

    • Author(s)
      砂川有里子
    • Organizer
      実践大学高雄校区高雄市教学中心
    • Invited
  • [Presentation] ワークショップ「日本語教育に役立つコーパスの使い方」2018

    • Author(s)
      砂川有里子
    • Organizer
      小出記念日本語教育研究会特別企画
  • [Book] 新・日本語教育のためのコーパス調査入門2018

    • Author(s)
      李在鎬、石川慎一郎、砂川有里子
    • Total Pages
      288 (204-258)
    • Publisher
      くろしお出版
    • ISBN
      4874247717
  • [Remarks] NLB機能語検索(暫定版)

    • URL

      http://nlb.ninjal.ac.jp/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi