• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

山崎 誠  The National Institute for Japanese Language, 研究開発部門, グループ長 (30182489)

Co-Investigator(Kenkyū-buntansha) 丸山 岳彦  独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (30302920)
柏野 和佳子  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (50311147)
小椋 秀樹  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (00321547)
森本 祥子  独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
Keywords均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
Research Abstract

平成20年度に行った主要な調査研究の内容は以下のとおりである。
1.生産実態(出版)サブコーパスの構築 : 2,100サンプルのサンプリング及び約2,000サンプルの電子化(入力)を終了した。また,昨年度分と合わせて,約3000サンプルに対してタグ付けを実施した。
2.流通実態(図書館)サブコーパスの構築 : 約5,000サンプルのサンプリング及び約5,000サンプルの電子化(入力)を終了した。また,昨年度分と合わせて,約8000サンプルのタグ付けを実施した。
3.形態素解析用辞書UniDicの整備拡充 : 構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数111,127・書字形158,011に対して,語彙素数147,464・書字形214,283に増補した。
4.コアデータの設計と構築 : 機械学習用に精度の高い解析を行うコアデータについては,白書,新聞,書籍各20万語の整備を終了し,新たにYahoo!知恵袋10万語の整備を行った。また,文節境界情報の人手による付与を行った。新聞,白書,書籍それぞれ10万語に対して長単位での情報付与を着手した。
5.著作権処理 : 2008年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数22,100に対し,著作権者へ連絡済みのものが15,504サンプル,そのうち許諾が得られたものが9,900サンプルである。連絡が取れた場合を母数とした許諾率は約64%である。
6.報告書の刊行 : サンプリング事例,形態論情報,テクスト分類に関する報告書を計3冊刊行した。

  • Research Products

    (19 results)

All 2009 2008 Other

All Journal Article (6 results) (of which Peer Reviewed: 1 results) Presentation (10 results) Remarks (3 results)

  • [Journal Article] 作文の文体情報…『現代日本語書き言葉均衡コーパス』から見えるもの…2009

    • Author(s)
      丸山岳彦
    • Journal Title

      日本語教育 140

      Pages: 22-36

  • [Journal Article] コーパスのための形態論情報2008

    • Author(s)
      小椋秀樹
    • Journal Title

      国文学解釈と鑑賞 74-1

      Pages: 26-34

    • Peer Reviewed
  • [Journal Article] 国立国語研究所における諸研究-語彙調査の系譜の中心にして-2008

    • Author(s)
      山崎誠
    • Journal Title

      国文学解釈と鑑賞 74-1

      Pages: 183-191

  • [Journal Article] The Rhetoric of Editorials : a Japanese case study2008

    • Author(s)
      Sano, Motoki
    • Journal Title

      Communicating Conflict

      Pages: 97-118

  • [Journal Article] Japanese Folk Tales : text structure and evaluative expression2008

    • Author(s)
      Sano, Motoki
    • Journal Title

      Bridging Discourses : ASFLA 2007 online proceedings

      Pages: 1-17

  • [Journal Article] 日本語コーパスの現状2008

    • Author(s)
      丸山岳彦
    • Journal Title

      国文学解釈と鑑賞 74-1

      Pages: 122-130

  • [Presentation] 電子コミュニケーションにおける情報要求の諸相-クチコミサイトアットコスメを対象に-2009

    • Author(s)
      田中弥生
    • Organizer
      社会言語科学会第23回大会
    • Place of Presentation
      東京外国語大会
    • Year and Date
      2009-03-29
  • [Presentation] 現代日本語書き言葉均衡コーパスのサンプル長と言語的特徴-固定長サンプルと可変長サンプルの質的な違い-2009

    • Author(s)
      山崎誠
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      2009-03-05
  • [Presentation] 『現代日本語書き言葉均衡コーパス』のサンプル収録方法2009

    • Author(s)
      柏野和佳子
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      2009-03-03
  • [Presentation] 現代日本語書き言葉均衡コーパスと日本語研究の展開2008

    • Author(s)
      山崎誠
    • Organizer
      東京外国語大学グローバルCOE第7回講演会
    • Place of Presentation
      東京外国語大学
    • Year and Date
      2008-12-15
  • [Presentation] 書籍の文章の多様性をとらえる観点付与の設計-『現代日本語書き言葉均衡コーパス』の収録文章を対象に-2008

    • Author(s)
      柏野和佳子
    • Organizer
      第30回ことば工学研究会
    • Place of Presentation
      武蔵野美術大学新宿サテライトROOM
    • Year and Date
      2008-10-31
  • [Presentation] 日本語コーパスの現状と課題-『現代日本語書き言葉均衡コーパス』を中心に-2008

    • Author(s)
      丸山岳彦
    • Organizer
      獨協大学国際教養学部言語文化学科招聘講演
    • Place of Presentation
      獨協大学
    • Year and Date
      2008-10-16
  • [Presentation] 大規模バランストコーパスにおけるテクスト分類に向けて-語彙密計測からみたコンテクスト情報-2008

    • Author(s)
      佐野大樹
    • Organizer
      日本機能言語学会第16回秋季大会
    • Place of Presentation
      お茶の水女子大学
    • Year and Date
      2008-10-12
  • [Presentation] Statistical sampling method used in the Balanced Corpus of Contemporary Written Japanese2008

    • Author(s)
      Maruyama, Takehiko
    • Organizer
      18th International Congress of Linguists
    • Place of Presentation
      Soeul, Korea
    • Year and Date
      2008-07-25
  • [Presentation] Lexical Density in Japanese Texts : classifying text samples in the Balanced Corpus of Contemporary Written Japanese (BCCWJ)2008

    • Author(s)
      Sano, Motoki
    • Organizer
      35th International Systemic Functional Congress : voices around the world
    • Place of Presentation
      Macquarie University, Sydney, Australia
    • Year and Date
      2008-07-22
  • [Presentation] 『現代日本語書き言葉均衡コーパス』の設計と構築 Balanced Corpus of Contemporary Written Japanese -its design and compilation-2008

    • Author(s)
      丸山岳彦
    • Organizer
      韓国国立国語院招聘講演
    • Place of Presentation
      韓国国立国語院
    • Year and Date
      2008-07-22
  • [Remarks] 国立国語研究所KOTONOHA計画

    • URL

      http://www.kokken.go.jp/kotonoha/

  • [Remarks] 特定領域研究「日本語コーパス」

    • URL

      http://www.tokuteicorpus.jp/

  • [Remarks] 現代日本語書き言葉均衡コーパス検索デモンストレーション

    • URL

      http://www.kotonoha.gr.jp/demo/

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi