• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research Institution大学共同利用機関法人人間文化研究機構国立国語研究所

Principal Investigator

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

Co-Investigator(Kenkyū-buntansha) 丸山 岳彦  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
山口 昌也  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
小椋 秀樹  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 準教授 (00321547)
小沼 悦  大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
Keywords均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
Research Abstract

平成20年度に行った主要な調査研究の内容は以下のとおりである。
1. 生産実態(出版)サブコーパスの構築:2,079サンプルのサンプリング及び電子化(文字入力)を終了,昨年度分と合わせて,約2,500サンプルに対してタグ付けを実施したことにより,当初の目標であった約2,900万語の取得を達成した。
2. 流通実態(図書館)サブコーパスの構築:494サンプルのサンプリング及び電子化(文字入力)及びタグ付けを実施し,当初の目標であった約3,000万語の取得を達成した。
3. 形態素解析用辞書UniDicの整備拡充:構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数147,464・書字形214,283に対して,語彙素数183,799・書字形286,896に増補した。
4. コアデータの設計と構築:機械学習用に精度の高い解析を行うコアデータについては,雑誌20「万語,Yahoo!知恵袋10万語の短単位での整備を行うとともに,書籍,白書,新聞の長単位(約64万語)による解析・人手修正及び文節境界の付与を完了した。
5. 著作権処理:2010年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,050に対し,著作権者へ連絡済みのものが20,136サンプル(約84%),そのうち許諾が得られたものが13,766サンプルである。連絡が取れた場合を母数とした許諾率は約68%である。
6. 報告書の刊行:『JIS X 0213:2004運用の検証』(2009年9月),『『現代日本語書き言葉均衡コーパス』形態論情報規程集』第3版(2010年2月)の2冊を刊行した。

  • Research Products

    (17 results)

All 2010 2009 Other

All Journal Article (4 results) (of which Peer Reviewed: 1 results) Presentation (10 results) Book (1 results) Remarks (2 results)

  • [Journal Article] 「話し言葉らしさ・書き言葉らしさ」の計測-語彙密度の日本語への適用性の検証-2010

    • Author(s)
      佐野大樹
    • Journal Title

      機能言語研究 5

      Pages: 89-102

    • Peer Reviewed
  • [Journal Article] プログにおける評価情報の分類と体系化-アプレイザル理論を用いて2010

    • Author(s)
      佐野大樹
    • Journal Title

      信学技報 NLC2009-39

      Pages: 37-42

  • [Journal Article] Q&Aサイトの「質問-回答」における結束性-省略の特徴分析-2010

    • Author(s)
      田中弥生
    • Journal Title

      信学技報 NLC2009-39

      Pages: 7-12

  • [Journal Article] 代表性を有する大規模日本語書き言葉コーパスの構築2009

    • Author(s)
      山崎誠
    • Journal Title

      人工知能学会誌 24-5

      Pages: 623-631

  • [Presentation] 修辞ユニットを用いた書き言葉の分析-「書き言葉・話し言葉らしさ」と(脱)文脈化の関係-2010

    • Author(s)
      佐野大樹
    • Organizer
      第25回社会言語科学会研究大会
    • Place of Presentation
      慶応大学
    • Year and Date
      2010-03-13
  • [Presentation] コーパスを用いたテキスト分類指標の検討-BCCWJの文書構造情報分析を中心に-2010

    • Author(s)
      間淵洋子
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-10
  • [Presentation] 形態素解析辞書UniDicにおける同語異語判別について2010

    • Author(s)
      小椋秀樹
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-10
  • [Presentation] 代表性を有するコーパスの設計とサンプリングの実際-コーパスに基づく言語研究の可能性と限界-2010

    • Author(s)
      丸山岳彦
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-09
  • [Presentation] 評価表現に基づくブログ分類の試み-アプレイザル理論を用いて-2010

    • Author(s)
      佐野大樹
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-09
  • [Presentation] 丁寧対文内における従属句の文体と接続助詞について-『現代日本語書き言葉均衡コーパス』を資料として-2009

    • Author(s)
      宮内佐夜香
    • Organizer
      日本語学会2009年度秋季大会
    • Place of Presentation
      島根大学
    • Year and Date
      2009-11-01
  • [Presentation] Context based register typology における社会意味過程カテゴリの言語的特徴の検討2009

    • Author(s)
      佐野大樹
    • Organizer
      日本機能言語学会秋季大会
    • Place of Presentation
      同志社大学
    • Year and Date
      2009-10-10
  • [Presentation] 『現代日本語書き言葉均衡コーパス』の構築と日本語研究の展望2009

    • Author(s)
      山崎誠
    • Organizer
      韓国日本語学会シンポジウム
    • Place of Presentation
      建国大学校(韓国)
    • Year and Date
      2009-09-19
  • [Presentation] 和語や漢語のカタカナ表記:『現代日本語書き言葉均衡コーパス』における使用実態2009

    • Author(s)
      柏野和佳子
    • Organizer
      計量国語学会第54回大会
    • Place of Presentation
      東京女子大学
    • Year and Date
      2009-09-12
  • [Presentation] 『現代日本語書き言葉均衡コーパス』に現れる接続表現形式のジャンル別比較2009

    • Author(s)
      宮内佐夜香
    • Organizer
      日本語学会2009年度春季大会
    • Place of Presentation
      武庫川女子大学
    • Year and Date
      2009-05-30
  • [Book] 言語処理学事典(「1.2コーパス」「1.2.1コーパスの類型」「1.2.2コーパスの構築」の章を執筆)2009

    • Author(s)
      丸山岳彦
    • Total Pages
      913(担当箇所:58-71)
    • Publisher
      共立出版
  • [Remarks]

    • URL

      http://www.tokuteicorpus.jp/

  • [Remarks]

    • URL

      http://www.ninjal.ac.jp/kotonoha/

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi