• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Final Research Report

Syntactic and Semantic Information Annotation on the Corpus of Historical Japanese

Research Project

  • PDF
Project/Area Number 17H00917
Research Category

Grant-in-Aid for Scientific Research (A)

Allocation TypeSingle-year Grants
Section一般
Research Field Japanese linguistics
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

ASAHARA Masayuki  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)

Co-Investigator(Kenkyū-buntansha) 服部 隆  上智大学, 文学部, 教授 (10289598)
古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
市村 太郎  京都府立大学, 文学部, 准教授 (10701352)
山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (30182489)
宮内 佐夜香  中京大学, 文学部, 教授 (30508502)
加藤 祥  目白大学, 外国語学部, 専任講師 (40623004)
池上 尚  埼玉大学, 教育学部, 准教授 (50739125)
近藤 明日子  東京大学, 人文社会系研究科, 助教 (30425722)
岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
Project Period (FY) 2017-04-01 – 2022-03-31
Keywords分類語彙表 / Universal Dependencies
Outline of Final Research Achievements

In this study, we annotated the materials from the Heian to the early Meiji period in the "Japanese Historical Corpus" with the Classification of Japanese Vocabulary (Bunrui Goi Hyo) codes, and constructed a dataset of 640,000 words. Combined with the annotated dataset of 340,000 words for the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) consisting of newspapers, books, and magazines, we constructed a dataset of approximately 1 million words with sense labels.

Furthermore, we continued to develop Universal Dependencies language resources as a standard for Japanese syntactic structure data. We proceeded with discussions on standards with the Universal Dependencies organization and proposed new standards for Japanese word segmentation issues.

Free Research Field

コーパス言語学

Academic Significance and Societal Importance of the Research Achievements

本研究の意義は、既存の形態論情報タグつきデータに対して『分類語彙表』体系に基づいて単語の意味ラベルを付与したことにある。海外の取り組みをみても、古典-現代を通して 98万語規模の単語の意味ラベルがついたデータは類を見ない。
さらに統語的な研究として、日本語 Universal Dependencies の基準の検討を進めた。特に日本語の分かち書きの問題について取り組み、新しい分かち書きの基準について提案を行い、国際会議にて発表した。

URL: 

Published: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi