• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

山崎 誠  独立行政法人国立国語研究所, 研究開発部門, グループ長 (30182489)

Co-Investigator(Kenkyū-buntansha) 丸山 岳彦  独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也  独立行政法人国立国語研究所, 研究開発部門, 研究員 (30302920)
小椋 秀樹  独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
森本 祥子  独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
大和 淳  横浜国立大学, 大学院・国際社会科学研究科, 助教授 (10377103)
Keywords均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析
Research Abstract

2006年度に行った主要な調査研究の内容は以下のとおりである。
1.全体設計:
現代日本語書き言葉コーパス(以下BCCWJと略す)を構成する3つのサブコーパスのうち,生産実態(出版)サブコーパにおける,書籍,雑誌,新聞の母集団の構成比を確定した。構成比を決めるために,各媒体ごとに判型(大きさ)やジャンルごとに文字数の分布を調査し,その結果に基づいて母集団の総文字数を推計した。また,具体的な算出方法について以下の報告書を刊行した。『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法-現代日本語書き言葉の文字数調査-(執筆:丸山岳彦,秋元祐哉)
2.サンプリング:
生産実態(出版)サブコーパスの書籍の部分について,サンプリング台帳を作成し,2500サンプルについてサンプリング・電子化を終了した。流通実態(図書館)サブコーパスについては,東京都内の公共図書館のISBN総合目録を元にサンプリング台帳作成の基礎作業を進めた。
3.電子化:
BCCWJの文字入力仕様及びタグの仕様を決定した。タグは,サンプリング情報,文字情報,文書構造情報の3種類あり,特にサンプルとして採られたテキストの論理構造を記述できるように設計した。
4.形態論情報付与:
特定領域研究の電子化辞書班と連携しつつ,解析用辞書unidicの整備拡充を行った。既存の資料等から見出し語の追加を行い,見出し語数を当初の約40000語から約106,000語に増やした。また,解析で使用する言語単位である短単位のマニュアル『現代日本語書き言葉均衡コーパス』短単位規程集Version1.2(執筆:小椋秀樹)を刊行した。
5.著作権処理:
(1)日本文藝家協会ほか4作家団体に協力依頼を行い,それぞれの団体から賛意が得られたため,協会員4226名に対して一括許諾の文書を送付し,2390件の回答を得た(4月25日現在)。回答における許諾率は98%であった。
(2)生産実態(出版)サブコーパスの書籍のサンプルについて,658サンプルについて依頼状を発送,331サンプルについて許諾を得たた(4月25日現在)。

  • Research Products

    (6 results)

All 2007 2006

All Journal Article (6 results)

  • [Journal Article] 書き言葉の構造を捉える-書き言葉の多様な構造とサンプリング手法-2007

    • Author(s)
      丸山岳彦, 柏野和佳子他
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 704-707

  • [Journal Article] 書き言葉の総量を捉える-書き言葉はどれだけ生産されるのか-2007

    • Author(s)
      秋元祐哉, 丸山岳彦他
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 708-711

  • [Journal Article] 文字コードとタグによる漢字字体の記述2007

    • Author(s)
      高田智和, 間淵洋子他
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 712-715

  • [Journal Article] 「現代日本語書き言葉均衡コーパス」の短単位解析について2007

    • Author(s)
      小椋秀樹, 小木曽智信他
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 720-723

  • [Journal Article] 新聞でとらえる日本語の姿-記事データベースが明らかにする特徴とは2007

    • Author(s)
      柏野和佳子
    • Journal Title

      新聞研究 666

      Pages: 21-24

  • [Journal Article] 書き言葉コーパスで探る日本語のありさま2006

    • Author(s)
      柏野和佳子
    • Journal Title

      日本語学 25-9

      Pages: 18-27

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi