2018 Fiscal Year Annual Research Report
Development of quasi-balanced ultra large-scale Japanese corpus and its high-speed search tool
Project/Area Number |
18H03575
|
Research Institution | Waseda University |
Principal Investigator |
今井 新悟 早稲田大学, 日本語教育研究センター, 教授 (50346582)
|
Co-Investigator(Kenkyū-buntansha) |
PARDESHI P.V. 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 教授 (00374984)
砂川 有里子 筑波大学, 人文社会系(名誉教授), 名誉教授 (40179289)
吉川 達 佐賀大学, 国際交流推進センター, 講師 (70599985)
今村 泰也 大学共同利用機関法人人間文化研究機構国立国語研究所, 大学共同利用機関等の部局等, 研究員 (80535542)
家根橋 伸子 東亜大学, 人間科学部, 教授 (80609652)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | コーパス / 超大規模 / 日本語 / 準均衡コーパス / 機能語 |
Outline of Annual Research Achievements |
超大規模な日本語ウェブコーパスを構築するために、ウェブページを収集し、テキスト化する作業を以下の手順で行った。まず、「現代日本語書き言葉均衡コーパス」BCCWJの語彙素レベルの頻度表を作成し、高頻度の内容語(動詞、イ形容詞、ナ形容詞、名詞)からシードとなる語彙素を選定した。次に、3つのシードをランダムに組み合わせたタプル(例:法律+答える+人々、条件+とても+様々 など)を500万組作成し、Bing WEB Search APIを使って、タプルが含まれるウェブページのURLを収集した。 予定では1億URLを収集する計画であったが、1回目の収集ではそれが達成できなかったため、以下の検証を行った。まず、Bing WEB Search APIで取得されるURLには20%程度の重複があることが明らかになったため、重複率を下げる方法として、シードの頻度範囲とシード数を調整して、最も効率のいい組み合わせを求める実験を行った。その結果、シードの数は1000個で、範囲は頻度順位1~1500位が最も効率がよいことが判明した。この結果に基づいて、Bing WEB Search APIを用いて、リクエスト数を段階的に増やしてURLの収集を継続した。 上記の方法でもなお1億URLに届かなかったため、別途、ウェブページを収集するためのクローラーを開発した。このクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築する。 上記データ収集に加えて、機能語のリストの構築を行った。その結果は、NLB 機能表現検索(暫定版)の基礎資料となった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
WEB Search APIでのURL収集で目標としていた1億URLに届かなかった。そのため、当初の予定にはなかった、その原因の検証と対応策の策定という作業が発生した。
|
Strategy for Future Research Activity |
WEB Search APIでのURL収集で目標としていた1億URLに届かなかったため、別途クローラーを作成して、URL収集の上積みを図ることとした。2019年度はこのクローラーによって、5000万ページの収集を行い、先のWEB Search APIで収集したものと合わせることにより、300億語程度の語を収集できるテキストデータを構築することとした。
|