2022 Fiscal Year Final Research Report
Syntactic and Semantic Information Annotation on the Corpus of Historical Japanese
Project/Area Number |
17H00917
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Japanese linguistics
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
ASAHARA Masayuki 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
市村 太郎 京都府立大学, 文学部, 准教授 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 教授 (30508502)
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
近藤 明日子 東京大学, 人文社会系研究科, 助教 (30425722)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Keywords | 分類語彙表 / Universal Dependencies |
Outline of Final Research Achievements |
In this study, we annotated the materials from the Heian to the early Meiji period in the "Japanese Historical Corpus" with the Classification of Japanese Vocabulary (Bunrui Goi Hyo) codes, and constructed a dataset of 640,000 words. Combined with the annotated dataset of 340,000 words for the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) consisting of newspapers, books, and magazines, we constructed a dataset of approximately 1 million words with sense labels.
Furthermore, we continued to develop Universal Dependencies language resources as a standard for Japanese syntactic structure data. We proceeded with discussions on standards with the Universal Dependencies organization and proposed new standards for Japanese word segmentation issues.
|
Free Research Field |
コーパス言語学
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の意義は、既存の形態論情報タグつきデータに対して『分類語彙表』体系に基づいて単語の意味ラベルを付与したことにある。海外の取り組みをみても、古典-現代を通して 98万語規模の単語の意味ラベルがついたデータは類を見ない。 さらに統語的な研究として、日本語 Universal Dependencies の基準の検討を進めた。特に日本語の分かち書きの問題について取り組み、新しい分かち書きの基準について提案を行い、国際会議にて発表した。
|