• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

山崎 誠  The National Institute for Japanese Language, 研究開発部門, グループ長 (30182489)

Co-Investigator(Kenkyū-buntansha) 丸山 岳彦  独立行政法人国立国語研究所, 研究開発部門, 研究員 (90392539)
山口 昌也  独立行政法人国立国語研究所, 研究開発部門, 主任研究員 (30302920)
柏野 和佳子  独立行政法人国立国語研究所, 研究開発部門, 研究員 (50311147)
小椋 秀樹  独立行政法人国立国語研究所, 研究開発部門, 研究員 (00321547)
森本 祥子  独立行政法人国立国語研究所, 情報資料部門, 研究員 (80342939)
Keywords均衡コーパス / 書き言葉 / 代表制 / 書籍 / サンプリング / XML / 形態素解析
Research Abstract

平成19年度に行った主要な調査研究の内容は以下のとおりである。
1. 生産実態(出版)サブコーパスでは,約4,200サンプルのサンプリング及び約4000サンプルの電子化を終了した。また,昨年度末入力分と合わせて,約4,500サンプルに対してタグ付けを実施した。
2. 流通実態(図書館)サブコーパスでは,東京都の52自治体の公共図書館の蔵書目録である「ISBN総合目録」をもとに13自治体以上で共通して所蔵している書籍約336,000冊を選定し,母集団を決定した。今年度は約6,600サンプルのサンプリング及び約6,100サンプルの電子化を終了。約2,400サンプルのタグ付けを実施した。
3. 解析用辞書UniDicの整備拡充を行った。構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数106,347・書字形136,276に対して,語彙素数111,127・書字形158,011に増補した。また,人名についての見出し語の整理,語種情報の付与作業を行った。
4. コアデータの設計と構築。機械学習用に精度の高い解析を行うコアデータについては,書き言葉コーパスの主なジャンルから均等にデータを得ることとした。今年度は,白書20万語の整備を終了し,新たに新聞10万語,書籍20万語のデータを追加した。
5. 著作権処理。2008年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数14,650に対し,著作権者へ連絡済みのものが7,230サンプル,そのうち許諾が得られたものが3,778サンプルである。連絡が取れた場合を母数とした許諾率は約52%である。
6. 報告書の刊行。サンプリング,電子化,形態論情報に関する報告書を4冊刊行した。

  • Research Products

    (19 results)

All 2008 2007 Other

All Journal Article (5 results) (of which Peer Reviewed: 1 results) Presentation (11 results) Remarks (3 results)

  • [Journal Article] 学術的表現への言い換え-教育現場での選択体系機能言語理論-2007

    • Author(s)
      佐野大樹
    • Journal Title

      日本語学 26(13)

      Pages: 60-71

  • [Journal Article] 現代雑誌70誌における漢字の使用実態と常用漢字表-国語施策へのコーパス活用に向けた基礎調査-2007

    • Author(s)
      小椋秀樹
    • Journal Title

      日本語科学 22

      Pages: 125-146

    • Peer Reviewed
  • [Journal Article] コーパス言語学の射程2007

    • Author(s)
      丸山岳彦
    • Journal Title

      日本語科学 22

      Pages: 5-12

  • [Journal Article] 国立国語研究所の言語コーパス整備計画「KOTONOHA」の紹介2007

    • Author(s)
      山崎誠
    • Journal Title

      漢字文献情報処理研究 8

      Pages: 180-183

  • [Journal Article] 国立国語研究所の語彙調査の歴史と課題2007

    • Author(s)
      山崎誠
    • Journal Title

      Sokutei Report 6

      Pages: 168-186

  • [Presentation] ブログの言語表現にみる対人配慮意識-媒体差および世代差に注目して-2008

    • Author(s)
      田中弥生
    • Organizer
      第21回社会言語科学会研究大会
    • Place of Presentation
      東京女子大学
    • Year and Date
      2008-03-22
  • [Presentation] 現代雑誌の漢語表記2008

    • Author(s)
      高田智和
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] クチコミサイトにおける世代別・媒体別言語表現の分析2008

    • Author(s)
      田中弥生
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 「現代日本語書き言葉均衡コーパス」の長単位認定基準について2008

    • Author(s)
      冨士池優美
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008

    • Author(s)
      小椋秀樹
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 書籍の生産実態を反映するサンプリング-NDCごとに取得したサンプルの多様性の分析-2008

    • Author(s)
      柏野和佳子
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] システミック文法に基づく書きことばの複雑さ測定-日本語大規模コーパスを用いた語彙密度計測-2008

    • Author(s)
      佐野大樹
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 話し言葉に現れる2種類のカラ節の判別2008

    • Author(s)
      丸山岳彦
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-18
  • [Presentation] 現代日本語書き言葉均衡コーパスの設計と検索デモンストレーション2007

    • Author(s)
      山崎誠
    • Organizer
      日本語学会2007年度秋季大会
    • Place of Presentation
      沖縄国際大学
    • Year and Date
      2007-11-18
  • [Presentation] Japanese Nursery Tales : A study of genre, semantic attributes, evaluation and lexicogrammar2007

    • Author(s)
      Motoki Sano
    • Organizer
      Annual Congress of the Australian Systemic Functional Linguistics Association
    • Place of Presentation
      University of Wollongong, Australia
    • Year and Date
      2007-06-30
  • [Presentation] <驚き・感慨>を表すモノダ文の解釈と構造2007

    • Author(s)
      北村雅則
    • Organizer
      日本語学会2007年度春季大会
    • Place of Presentation
      関西大学
    • Year and Date
      2007-05-27
  • [Remarks] 国立国語研究所KOTONOHA計画

    • URL

      http://www.kokken.go.jp/kotonoha/

  • [Remarks] 特定領域研究「日本語コーパス」

    • URL

      http://www.tokuteicorpus.jp/

  • [Remarks] 現代日本語書き言葉均衡コーパス検索デモンストレーション

    • URL

      http://www.kotonoha.gr.jp/demo/

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi