研究領域 | 代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備 |
研究課題/領域番号 |
18061007
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
人文・社会系
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)
|
研究分担者 |
丸山 岳彦 国立国語研究所, 言語資源研究系, 助教 (90392539)
柏野 和佳子 国立国語研究所, 言語資源研究系, 准教授 (50311147)
佐野 大樹 国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (60455425)
山口 昌也 国立国語研究所, 言語資源研究系, 助教 (30302920)
間淵 洋子 国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (10415614)
高田 智和 国立国語研究所, 理論・構造研究系, 准教授 (90415612)
小椋 秀樹 国立国語研究所, 言語資源研究系, 准教授 (00321547)
冨士池 優美 国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (20510572)
小沼 悦 国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
森本 祥子 学習院大学, 大学院・人文科学研究科, 助教 (80342939)
大和 淳 文化庁, 長官官房著作権課, 課長補佐 (10377103)
|
研究期間 (年度) |
2006 – 2010
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
242,200千円 (直接経費: 242,200千円)
2010年度: 17,500千円 (直接経費: 17,500千円)
2009年度: 29,300千円 (直接経費: 29,300千円)
2008年度: 54,900千円 (直接経費: 54,900千円)
2007年度: 86,200千円 (直接経費: 86,200千円)
2006年度: 54,300千円 (直接経費: 54,300千円)
|
キーワード | 均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態解析 / 著作権処理 / 形態素解析 / 代表制 |
研究概要 |
本研究では、今後の日本語研究にとって利用価値の高い、大規模な書籍コーパスを構築した。この書籍コーパスは、以下の特徴を持つ日本で最初の本格的な書き言葉コーパスである。(1)ランダムサンプリングによって母集団を過不足なく代表すること。(2)短単位・長単位の2種類の言語単位による形態論情報が付与されていること。(3)XMLにより文書構造、形態論情報、文字情報等が記述されていること。(4)可能な限りすべてのサンプルの著者に連絡をとり著作権処理を施したこと。書籍コーパスは『現代日本語書き言葉均衡コーパス』の主要な部分を占め、2011年中に一般に公開する。
|