Co-Investigator(Kenkyū-buntansha) |
丸山 岳彦 独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也 独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (30302920)
柏野 和佳子 独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (50311147)
小椋 秀樹 独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (00321547)
森本 祥子 独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
|
Research Abstract |
平成20年度に行った主要な調査研究の内容は以下のとおりである。 1.生産実態(出版)サブコーパスの構築 : 2,100サンプルのサンプリング及び約2,000サンプルの電子化(入力)を終了した。また,昨年度分と合わせて,約3000サンプルに対してタグ付けを実施した。 2.流通実態(図書館)サブコーパスの構築 : 約5,000サンプルのサンプリング及び約5,000サンプルの電子化(入力)を終了した。また,昨年度分と合わせて,約8000サンプルのタグ付けを実施した。 3.形態素解析用辞書UniDicの整備拡充 : 構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数111,127・書字形158,011に対して,語彙素数147,464・書字形214,283に増補した。 4.コアデータの設計と構築 : 機械学習用に精度の高い解析を行うコアデータについては,白書,新聞,書籍各20万語の整備を終了し,新たにYahoo!知恵袋10万語の整備を行った。また,文節境界情報の人手による付与を行った。新聞,白書,書籍それぞれ10万語に対して長単位での情報付与を着手した。 5.著作権処理 : 2008年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数22,100に対し,著作権者へ連絡済みのものが15,504サンプル,そのうち許諾が得られたものが9,900サンプルである。連絡が取れた場合を母数とした許諾率は約64%である。 6.報告書の刊行 : サンプリング事例,形態論情報,テクスト分類に関する報告書を計3冊刊行した。
|