研究課題/領域番号 |
17H00917
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
研究分担者 |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 茨城大学, 理工学研究科(工学野), 講師 (10592339)
市村 太郎 常葉大学, 教育学部, 講師 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 准教授 (30508502)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
研究期間 (年度) |
2017-04-01 – 2022-03-31
|
キーワード | コーパス / アノテーション |
研究実績の概要 |
平成31年度は主に『分類語彙表』の関連する言語資源整備を進めた。 『分類語彙表』に対する位相情報アノテーション(NLP2019 言語資源賞受賞)を整備し、公開した。『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表を構築し、令和2年度中に公開予定である。 『日本語歴史コーパス』に対する分類語彙表番号アノテーションにおいては、『宇治拾遺物語』『国定読本(第1期)』に対する作業が完了し、『今昔物語集』『国定読本(第2期)』に対する作業に着手した。並行して行った『現代日本語書き言葉コーパス』に対する分類語彙表番号アノテーションおよび助動詞の用法アノテーションについて公開を行った。 語義推定の自動化を進めるために自然言語処理の事前学習フレームワーク BERT の日本語モデル NWJC-BERT を構築し、文脈化単語埋め込み情報出力環境を整備した。具体的には『国語研日本語ウェブコーパス』 250億語に基づき訓練を行い、『現代日本語書き言葉コーパス』に対する文脈化単語埋め込み情報付与作業を実施した。同データ BERTed-BCCWJ は NLP2020 言語資源賞を受賞した。『日本語歴史コーパス』に対しても同モデルで文脈化単語埋め込み情報を付与(BERTed-CHJ)し、その概要について日本語学会2020年度春季大会で発表予定である。 統語関連においては、UD Japanese-GSD の再整備を進めた。2020年5月のリリースに向けて作業を継続している。また近代語に対する長単位・係り受け情報アノテーションについて検討を進めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
分類語彙表番号アノテーションについては着実にデータ量を増やしてきた。 統語情報については近代語を中心に検討を続けたい。
|
今後の研究の推進方策 |
引き続き分類語彙表番号アノテーションを続けるとともに、BERT に基づく語義アノテーション支援手法について検討を行う。 統語情報については『国定読本』に対する長単位情報付与を検討する。
|