Co-Investigator(Kenkyū-buntansha) |
丸山 岳彦 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
山口 昌也 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
柏野 和佳子 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
小椋 秀樹 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 準教授 (00321547)
小沼 悦 大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
|
Research Abstract |
平成20年度に行った主要な調査研究の内容は以下のとおりである。 1. 生産実態(出版)サブコーパスの構築:2,079サンプルのサンプリング及び電子化(文字入力)を終了,昨年度分と合わせて,約2,500サンプルに対してタグ付けを実施したことにより,当初の目標であった約2,900万語の取得を達成した。 2. 流通実態(図書館)サブコーパスの構築:494サンプルのサンプリング及び電子化(文字入力)及びタグ付けを実施し,当初の目標であった約3,000万語の取得を達成した。 3. 形態素解析用辞書UniDicの整備拡充:構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数147,464・書字形214,283に対して,語彙素数183,799・書字形286,896に増補した。 4. コアデータの設計と構築:機械学習用に精度の高い解析を行うコアデータについては,雑誌20「万語,Yahoo!知恵袋10万語の短単位での整備を行うとともに,書籍,白書,新聞の長単位(約64万語)による解析・人手修正及び文節境界の付与を完了した。 5. 著作権処理:2010年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,050に対し,著作権者へ連絡済みのものが20,136サンプル(約84%),そのうち許諾が得られたものが13,766サンプルである。連絡が取れた場合を母数とした許諾率は約68%である。 6. 報告書の刊行:『JIS X 0213:2004運用の検証』(2009年9月),『『現代日本語書き言葉均衡コーパス』形態論情報規程集』第3版(2010年2月)の2冊を刊行した。
|