2006 Fiscal Year Annual Research Report
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061007
|
Research Institution | The National Institute for Japanese Language |
Principal Investigator |
山崎 誠 独立行政法人国立国語研究所, 研究開発部門, グループ長 (30182489)
|
Co-Investigator(Kenkyū-buntansha) |
丸山 岳彦 独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也 独立行政法人国立国語研究所, 研究開発部門, 研究員 (30302920)
小椋 秀樹 独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
森本 祥子 独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
大和 淳 横浜国立大学, 大学院・国際社会科学研究科, 助教授 (10377103)
|
Keywords | 均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 |
Research Abstract |
2006年度に行った主要な調査研究の内容は以下のとおりである。 1.全体設計: 現代日本語書き言葉コーパス(以下BCCWJと略す)を構成する3つのサブコーパスのうち,生産実態(出版)サブコーパにおける,書籍,雑誌,新聞の母集団の構成比を確定した。構成比を決めるために,各媒体ごとに判型(大きさ)やジャンルごとに文字数の分布を調査し,その結果に基づいて母集団の総文字数を推計した。また,具体的な算出方法について以下の報告書を刊行した。『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法-現代日本語書き言葉の文字数調査-(執筆:丸山岳彦,秋元祐哉) 2.サンプリング: 生産実態(出版)サブコーパスの書籍の部分について,サンプリング台帳を作成し,2500サンプルについてサンプリング・電子化を終了した。流通実態(図書館)サブコーパスについては,東京都内の公共図書館のISBN総合目録を元にサンプリング台帳作成の基礎作業を進めた。 3.電子化: BCCWJの文字入力仕様及びタグの仕様を決定した。タグは,サンプリング情報,文字情報,文書構造情報の3種類あり,特にサンプルとして採られたテキストの論理構造を記述できるように設計した。 4.形態論情報付与: 特定領域研究の電子化辞書班と連携しつつ,解析用辞書unidicの整備拡充を行った。既存の資料等から見出し語の追加を行い,見出し語数を当初の約40000語から約106,000語に増やした。また,解析で使用する言語単位である短単位のマニュアル『現代日本語書き言葉均衡コーパス』短単位規程集Version1.2(執筆:小椋秀樹)を刊行した。 5.著作権処理: (1)日本文藝家協会ほか4作家団体に協力依頼を行い,それぞれの団体から賛意が得られたため,協会員4226名に対して一括許諾の文書を送付し,2390件の回答を得た(4月25日現在)。回答における許諾率は98%であった。 (2)生産実態(出版)サブコーパスの書籍のサンプルについて,658サンプルについて依頼状を発送,331サンプルについて許諾を得たた(4月25日現在)。
|
Research Products
(6 results)