Project/Area Number |
17H00917
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Research Field |
Japanese linguistics
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
ASAHARA Masayuki 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (80379528)
|
Co-Investigator(Kenkyū-buntansha) |
服部 隆 上智大学, 文学部, 教授 (10289598)
古宮 嘉那子 東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)
市村 太郎 京都府立大学, 文学部, 准教授 (10701352)
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 教授 (30182489)
宮内 佐夜香 中京大学, 文学部, 教授 (30508502)
加藤 祥 目白大学, 外国語学部, 専任講師 (40623004)
池上 尚 埼玉大学, 教育学部, 准教授 (50739125)
近藤 明日子 東京大学, 人文社会系研究科, 助教 (30425722)
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
Project Period (FY) |
2017-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥42,900,000 (Direct Cost: ¥33,000,000、Indirect Cost: ¥9,900,000)
Fiscal Year 2021: ¥8,580,000 (Direct Cost: ¥6,600,000、Indirect Cost: ¥1,980,000)
Fiscal Year 2020: ¥8,580,000 (Direct Cost: ¥6,600,000、Indirect Cost: ¥1,980,000)
Fiscal Year 2019: ¥8,970,000 (Direct Cost: ¥6,900,000、Indirect Cost: ¥2,070,000)
Fiscal Year 2018: ¥9,620,000 (Direct Cost: ¥7,400,000、Indirect Cost: ¥2,220,000)
Fiscal Year 2017: ¥7,150,000 (Direct Cost: ¥5,500,000、Indirect Cost: ¥1,650,000)
|
Keywords | 分類語彙表 / Universal Dependencies / 日本語学 / 言語学 / 情報図書館学 / 認知科学 / 自然言語処理 / コーパス / アノテーション / 国語学 / 情報工学 / 係り受け |
Outline of Final Research Achievements |
In this study, we annotated the materials from the Heian to the early Meiji period in the "Japanese Historical Corpus" with the Classification of Japanese Vocabulary (Bunrui Goi Hyo) codes, and constructed a dataset of 640,000 words. Combined with the annotated dataset of 340,000 words for the "Balanced Corpus of Contemporary Written Japanese" (BCCWJ) consisting of newspapers, books, and magazines, we constructed a dataset of approximately 1 million words with sense labels.
Furthermore, we continued to develop Universal Dependencies language resources as a standard for Japanese syntactic structure data. We proceeded with discussions on standards with the Universal Dependencies organization and proposed new standards for Japanese word segmentation issues.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の意義は、既存の形態論情報タグつきデータに対して『分類語彙表』体系に基づいて単語の意味ラベルを付与したことにある。海外の取り組みをみても、古典-現代を通して 98万語規模の単語の意味ラベルがついたデータは類を見ない。 さらに統語的な研究として、日本語 Universal Dependencies の基準の検討を進めた。特に日本語の分かち書きの問題について取り組み、新しい分かち書きの基準について提案を行い、国際会議にて発表した。
|