Co-Investigator(Kenkyū-buntansha) |
丸山 岳彦 独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也 独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (30302920)
柏野 和佳子 独立行政法人国立国語研究所, 研究開発部門, 研究員 (50311147)
小椋 秀樹 独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
森本 祥子 独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
|
Research Abstract |
平成19年度に行った主要な調査研究の内容は以下のとおりである。 1. 生産実態(出版)サブコーパスでは,約4,200サンプルのサンプリング及び約4000サンプルの電子化を終了した。また,昨年度末入力分と合わせて,約4,500サンプルに対してタグ付けを実施した。 2. 流通実態(図書館)サブコーパスでは,東京都の52自治体の公共図書館の蔵書目録である「ISBN総合目録」をもとに13自治体以上で共通して所蔵している書籍約336,000冊を選定し,母集団を決定した。今年度は約6,600サンプルのサンプリング及び約6,100サンプルの電子化を終了。約2,400サンプルのタグ付けを実施した。 3. 解析用辞書UniDicの整備拡充を行った。構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数106,347・書字形136,276に対して,語彙素数111,127・書字形158,011に増補した。また,人名についての見出し語の整理,語種情報の付与作業を行った。 4. コアデータの設計と構築。機械学習用に精度の高い解析を行うコアデータについては,書き言葉コーパスの主なジャンルから均等にデータを得ることとした。今年度は,白書20万語の整備を終了し,新たに新聞10万語,書籍20万語のデータを追加した。 5. 著作権処理。2008年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数14,650に対し,著作権者へ連絡済みのものが7,230サンプル,そのうち許諾が得られたものが3,778サンプルである。連絡が取れた場合を母数とした許諾率は約52%である。 6. 報告書の刊行。サンプリング,電子化,形態論情報に関する報告書を4冊刊行した。
|