2008 Fiscal Year Self-evaluation Report
Compilation of a balanced book corpus of contemporary written Japanese
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061007
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Humanities and Social Sciences
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
YAMAZAKI Makoto The National Institute for Japanese Language, 研究開発部門, グループ長 (30182489)
|
Project Period (FY) |
2006 – 2010
|
Keywords | 均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態解析 / 著作権処理 |
Research Abstract |
本研究では, 現代日本語研究にとってもっとも重要な研究基盤と位置付けられる「書籍コーパス」を構築することを目的とする。このコーパスは, 従来の新聞や文学作品といった単一のジャンルから構成される電子資料と違って, 多様なジャンルや文体を持つ書籍を資料として, その資料的あるいは言語的諸特性を適切に代表するコーパスとして設計する。そのために, ランダムサンプリング, XMLによるタグに記述, 斉一的な言語単位による形態素情報の付与, 著作家処理を行い, 多方面での高度な活用を目指す。
|