2018 年度実績報告書

準均衡超大規模日本語コーパスと高速検索ツールの開発

研究課題

研究課題/領域番号	18H03575
研究機関	早稲田大学
研究代表者	今井新悟早稲田大学, 日本語教育研究センター, 教授 (50346582)
研究分担者	PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984) 砂川有里子筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289) 吉川達佐賀大学, 国際交流推進センター, 講師 (70599985) 今村泰也大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 研究員 (80535542) 家根橋伸子東亜大学, 人間科学部, 教授 (80609652)
研究期間 (年度)	2018-04-01 – 2020-03-31
キーワード	コーパス / 超大規模 / 日本語 / 準均衡コーパス / 機能語
研究実績の概要	超大規模な日本語ウェブコーパスを構築するために、ウェブページを収集し、テキスト化する作業を以下の手順で行った。まず、「現代日本語書き言葉均衡コーパス」BCCWJの語彙素レベルの頻度表を作成し、高頻度の内容語（動詞、イ形容詞、ナ形容詞、名詞）からシードとなる語彙素を選定した。次に、３つのシードをランダムに組み合わせたタプル（例：法律＋答える＋人々、条件＋とても＋様々　など）を500万組作成し、Bing WEB Search APIを使って、タプルが含まれるウェブページのURLを収集した。予定では１億URLを収集する計画であったが、1回目の収集ではそれが達成できなかったため、以下の検証を行った。まず、Bing WEB Search APIで取得されるURLには20％程度の重複があることが明らかになったため、重複率を下げる方法として、シードの頻度範囲とシード数を調整して、最も効率のいい組み合わせを求める実験を行った。その結果、シードの数は1000個で、範囲は頻度順位1～1500位が最も効率がよいことが判明した。この結果に基づいて、Bing WEB Search APIを用いて、リクエスト数を段階的に増やしてURLの収集を継続した。上記の方法でもなお１億URLに届かなかったため、別途、ウェブページを収集するためのクローラーを開発した。このクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築する。上記データ収集に加えて、機能語のリストの構築を行った。その結果は、NLB 機能表現検索（暫定版）の基礎資料となった。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由 WEB Search APIでのURL収集で目標としていた１億URLに届かなかった。そのため、当初の予定にはなかった、その原因の検証と対応策の策定という作業が発生した。
今後の研究の推進方策	WEB Search APIでのURL収集で目標としていた１億URLに届かなかったため、別途クローラーを作成して、URL収集の上積みを図ることとした。2019年度はこのクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築することとした。

研究成果
(8件)

すべて 2018 その他

すべて学会発表 (6件) (うち招待講演 4件) 図書 (1件) 備考 (1件)

[学会発表] 翻訳リソースとしてのコーパスの活用法およびその指導2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  2018年度大学日本語セミナー「タイの日本語教育における翻訳授業を考える」
- 招待講演
[学会発表] 日本語教育に役立つコーパスの使い方2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  ユライドブリラ大学プーラ主催国際シンポジウム「新世代の日本語学習」
[学会発表] 日本語教育と研究に役立つコーパス調査の方法2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  台湾大学総合教学館
- 招待講演
[学会発表] 日本語教育と研究に役立つコーパス調査の方法2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  靜宜大学伯鐸樓
- 招待講演
[学会発表] 日本語教育に役立つコーパスの使い方2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  実践大学高雄校区高雄市教学中心
- 招待講演
[学会発表] ワークショップ「日本語教育に役立つコーパスの使い方」2018
- 著者名/発表者名
  砂川有里子
- 学会等名
  小出記念日本語教育研究会特別企画
[図書] 新・日本語教育のためのコーパス調査入門2018
- 著者名/発表者名
  李在鎬、石川慎一郎、砂川有里子
- 総ページ数
  288 (204-258)
- 出版者
  くろしお出版
- ISBN
  4874247717
[備考] NLB機能語検索（暫定版）
- URL
  http://nlb.ninjal.ac.jp/

2018 年度 実績報告書

準均衡超大規模日本語コーパスと高速検索ツールの開発

研究代表者

今井 新悟 早稲田大学, 日本語教育研究センター, 教授 (50346582)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 翻訳リソースとしてのコーパスの活用法およびその指導2018

著者名/発表者名

学会等名

[学会発表] 日本語教育に役立つコーパスの使い方2018

著者名/発表者名

学会等名

[学会発表] 日本語教育と研究に役立つコーパス調査の方法2018

著者名/発表者名

学会等名

[学会発表] 日本語教育と研究に役立つコーパス調査の方法2018

著者名/発表者名

学会等名

[学会発表] 日本語教育に役立つコーパスの使い方2018

著者名/発表者名

学会等名

[学会発表] ワークショップ「日本語教育に役立つコーパスの使い方」2018

著者名/発表者名

学会等名

[図書] 新・日本語教育のためのコーパス調査入門2018

著者名/発表者名

総ページ数

出版者

ISBN

[備考] NLB機能語検索（暫定版）

URL

2018 年度実績報告書

今井新悟早稲田大学, 日本語教育研究センター, 教授 (50346582)