2020 Fiscal Year Annual Research Report
日本語歴史コーパスに対する統語・意味情報アノテーション
Project/Area Number |
17H00917
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
浅原 正幸 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 茨城大学, 理工学研究科(工学野), 講師 (10592339)
市村 太郎 常葉大学, 教育学部, 准教授 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 教授 (30508502)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 分類語彙表 / Universal Dependencies |
Outline of Annual Research Achievements |
2020年度も引き続き『分類語彙表』の関連する言語資源整備を進めた。『分類語彙表』と『岩波国語辞典第五版タグ付きコーパス2004』の対応表(https://github.com/masayu-a/WLSP2iwanami)・『分類語彙表』の反対語情報データ(https://github.com/masayu-a/WLSP-antonym)を構築し公開した。『日本語歴史コーパス』に対する分類語彙表番号アノテーションにおいては、『今昔物語集』『国定読本(第2期)』を進めている。 さらに同データに基づく語義の自動推定手法について検討を行った。BERT に基づく文脈化単語埋め込みを『日本語歴史コーパス』に対して適用し、語義ラベルが文脈化単語埋め込み上にどのように分布するかについて検討を行った。他にも深層学習器に基づく語義の曖昧性解消手法及び現代語語義付きデータに基づく古典語への時代適応技術の検討を行った。同研究については、積極的に国際会議(LREC-2020 併設ワークショップ及び PACLIC)での発表を行った。また IPAL 辞書に利用可能性を検討するために、IPAL 形容詞例文の分析を進めた。 統語関連においては、引き続き UD Japanese-GSD の整備を進めた。2020年5月・11月と UD Japanese データの更新を行った。さらに、Universal Dependencies 国語研長単位に基づく UD Japanese の可能性について検討を行った。並行して、日本語話し言葉の文節係り受けデータについても整備を進めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
分類語彙表番号アノテーションについては着実にデータ量を増やしてきた。 また分類語彙表に関連するデータの拡充を進めた。
|
Strategy for Future Research Activity |
引き続き分類語彙表番号アノテーションを続けるとともに、深層学習に基づく語義アノテーション支援手法について検討を行う。
|