研究領域 | 代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備 |
研究課題/領域番号 |
18061007
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
山崎 誠 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)
|
研究分担者 |
丸山 岳彦 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
山口 昌也 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
小椋 秀樹 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
小沼 悦 大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
|
キーワード | 均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理 |
研究概要 |
1.年度当初には『現代日本語書き言葉均衡コーパス』の主要な部分を占める書籍コーパス(24320サンプル、約6500万語)のサンプリングを完了したが、著作権処理での拒否による減少を補うため、減少したNDC層に対してサンプルの補填を行い、各層の均衡を確保した。 2.文庫化などにより、サンプルを取得した書籍の刊行年とサンプルの初出年とが異なる場合があったものについて初出年を調査し、書誌情報を充実させた。 3.形態素解析用辞書UniDicの整備拡充については、構築中のデータの解析結果から未登録語を採録し、年度当初の語彙素数18万4千・書字形28万7千に対して、語彙素数21万・書字形33万まで増補した。 4.形態論情報を考慮した公開用XMLフォーマットを策定し、従来の文字ベースのXMLとの整合性を図った。また、外注の過程で発生した誤入力の効率的な修正を行った。 5.機械学習用に精度の高い解析を行う「コアデータ」については、ブログ10万語の短単位での整備を行い、短単位のすべてのデータが完成した。また,コア全体に対して長単位による解析・人手修正及び文節境界の付与をほぼ完了した。 6.著作権処理は、2011年3月末時点で、書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,150に対し、著作権者へ連絡済みのものが21,744サンプル(約90%)、そのうち許諾が得られたものが15,703サンプルである。連絡が取れた場合を母数とした許諾率は約72%である。 7.サンプリング、電子化、形態論情報付与の各構築作業に関するノウハウをまとめた報告書を2冊ずつ、計6冊刊行した(平成23年2月)。 8.「モニター公開データ」の利用者に対するアンケートを実施し、利用実態を分析した。
|