研究課題/領域番号 |
18H03575
|
研究機関 | 早稲田大学 |
研究代表者 |
今井 新悟 早稲田大学, 日本語教育研究センター, 教授 (50346582)
|
研究分担者 |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子 筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達 佐賀大学, 国際交流推進センター, 講師 (70599985)
今村 泰也 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 研究員 (80535542)
家根橋 伸子 東亜大学, 人間科学部, 教授 (80609652)
|
研究期間 (年度) |
2018-04-01 – 2020-03-31
|
キーワード | コーパス / 超大規模 / 日本語 / 準均衡コーパス / 機能語 |
研究実績の概要 |
超大規模な日本語ウェブコーパスを構築するために、ウェブページを収集し、テキスト化する作業を以下の手順で行った。まず、「現代日本語書き言葉均衡コーパス」BCCWJの語彙素レベルの頻度表を作成し、高頻度の内容語(動詞、イ形容詞、ナ形容詞、名詞)からシードとなる語彙素を選定した。次に、3つのシードをランダムに組み合わせたタプル(例:法律+答える+人々、条件+とても+様々 など)を500万組作成し、Bing WEB Search APIを使って、タプルが含まれるウェブページのURLを収集した。 予定では1億URLを収集する計画であったが、1回目の収集ではそれが達成できなかったため、以下の検証を行った。まず、Bing WEB Search APIで取得されるURLには20%程度の重複があることが明らかになったため、重複率を下げる方法として、シードの頻度範囲とシード数を調整して、最も効率のいい組み合わせを求める実験を行った。その結果、シードの数は1000個で、範囲は頻度順位1~1500位が最も効率がよいことが判明した。この結果に基づいて、Bing WEB Search APIを用いて、リクエスト数を段階的に増やしてURLの収集を継続した。 上記の方法でもなお1億URLに届かなかったため、別途、ウェブページを収集するためのクローラーを開発した。このクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築する。 上記データ収集に加えて、機能語のリストの構築を行った。その結果は、NLB 機能表現検索(暫定版)の基礎資料となった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
WEB Search APIでのURL収集で目標としていた1億URLに届かなかった。そのため、当初の予定にはなかった、その原因の検証と対応策の策定という作業が発生した。
|
今後の研究の推進方策 |
WEB Search APIでのURL収集で目標としていた1億URLに届かなかったため、別途クローラーを作成して、URL収集の上積みを図ることとした。2019年度はこのクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築することとした。
|