• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

代表性を有する現代日本語書籍コーパスの構築

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

Co-Investigator(Kenkyū-buntansha) 丸山 岳彦  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
山口 昌也  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
小椋 秀樹  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
小沼 悦  大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
Keywords均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
Research Abstract

1.年度当初には『現代日本語書き言葉均衡コーパス』の主要な部分を占める書籍コーパス(24320サンプル、約6500万語)のサンプリングを完了したが、著作権処理での拒否による減少を補うため、減少したNDC層に対してサンプルの補填を行い、各層の均衡を確保した。
2.文庫化などにより、サンプルを取得した書籍の刊行年とサンプルの初出年とが異なる場合があったものについて初出年を調査し、書誌情報を充実させた。
3.形態素解析用辞書UniDicの整備拡充については、構築中のデータの解析結果から未登録語を採録し、年度当初の語彙素数18万4千・書字形28万7千に対して、語彙素数21万・書字形33万まで増補した。
4.形態論情報を考慮した公開用XMLフォーマットを策定し、従来の文字ベースのXMLとの整合性を図った。また、外注の過程で発生した誤入力の効率的な修正を行った。
5.機械学習用に精度の高い解析を行う「コアデータ」については、ブログ10万語の短単位での整備を行い、短単位のすべてのデータが完成した。また,コア全体に対して長単位による解析・人手修正及び文節境界の付与をほぼ完了した。
6.著作権処理は、2011年3月末時点で、書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,150に対し、著作権者へ連絡済みのものが21,744サンプル(約90%)、そのうち許諾が得られたものが15,703サンプルである。連絡が取れた場合を母数とした許諾率は約72%である。
7.サンプリング、電子化、形態論情報付与の各構築作業に関するノウハウをまとめた報告書を2冊ずつ、計6冊刊行した(平成23年2月)。
8.「モニター公開データ」の利用者に対するアンケートを実施し、利用実態を分析した。

  • Research Products

    (28 results)

All 2011 2010 Other

All Journal Article (4 results) (of which Peer Reviewed: 2 results) Presentation (16 results) Book (6 results) Remarks (2 results)

  • [Journal Article] 漢字の使用実態-表外訓・表外字の使用について2011

    • Author(s)
      小椋秀樹
    • Journal Title

      国文学解釈と鑑賞

      Volume: 76 Pages: 67-75

  • [Journal Article] 現代日本語書き言葉における修辞ユニット分析の適用性の検証-「書き言葉らしさ・話し言葉らしさ」と脱文脈化言語・文脈化言語の関係-2011

    • Author(s)
      佐野大樹, 小磯花絵
    • Journal Title

      機能言語学研究

      Volume: 6 Pages: 59-81

    • Peer Reviewed
  • [Journal Article] Yahoo!知恵袋における質問の修辞ユニット分析-脱文脈化-文脈化の程度による分類-2011

    • Author(s)
      田中弥生
    • Journal Title

      信学技報

      Volume: NLC2010-33 Pages: 13-18

  • [Journal Article] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010

    • Author(s)
      佐野大樹
    • Journal Title

      計量国語学

      Volume: 27-7 Pages: 249-269

    • Peer Reviewed
  • [Presentation] An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010

    • Author(s)
      Wakako Kashino, Manabu Okumura
    • Organizer
      24th Pacific Asia Conference on Language, Information and Computation (PACLIC24)
    • Place of Presentation
      東北大学
    • Year and Date
      2010-11-06
  • [Presentation] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010

    • Author(s)
      柏野和佳子, 奥村学
    • Organizer
      第88回人文科学とコンピュータ研究会発表会
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2010-10-30
  • [Presentation] 形態素解析辞書「中古和文UniDic」とその活用例2010

    • Author(s)
      小木曽智信, 小椋秀樹, 近藤明日子, 須永哲也
    • Organizer
      日本語学会2010年度秋季大会
    • Place of Presentation
      愛知大学豊橋キャンパス
    • Year and Date
      2010-10-24
  • [Presentation] 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した語彙研究の進展2010

    • Author(s)
      山崎誠
    • Organizer
      北京日本学研究センター創立25周年記念シンポジウム
    • Place of Presentation
      北京外国語大学
    • Year and Date
      2010-10-17
  • [Presentation] 話し言葉にみられる「から」「ので」の音調2010

    • Author(s)
      田頭(谷口)未希, 丸山岳彦
    • Organizer
      第24回日本音声学会全国大会
    • Place of Presentation
      國學院大學渋谷キャンパス
    • Year and Date
      2010-10-10
  • [Presentation] An Annotation Scheme for Syntactic Unit in Japanese Dialog2010

    • Author(s)
      Maruyama, Takehiko, Katsuya Takanashi, Nao Yoshida
    • Organizer
      The 5th Workshop on Disfluency in Spontaneous Speech, and The 2nd International Symposium on Linguistic Patterns in Spontaneous Speech
    • Place of Presentation
      東京大学本郷キャンパス
    • Year and Date
      2010-09-26
  • [Presentation] テキストにおける多義語の意味実現の傾向2010

    • Author(s)
      山崎誠
    • Organizer
      計量国語学会第54回大会
    • Place of Presentation
      大正大学
    • Year and Date
      2010-09-11
  • [Presentation] 社会科学と文学の「あとがき」における文体的特徴の相違2010

    • Author(s)
      田中弥生
    • Organizer
      計量国語学会第54回大会
    • Place of Presentation
      大正大学
    • Year and Date
      2010-09-11
  • [Presentation] 現代日本語コーパスにおける文字処理2010

    • Author(s)
      高田智和
    • Organizer
      第4回人間文化研究情報資源共有化研究会
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2010-09-10
  • [Presentation] 異なる媒体における「QA」の文体的特徴-書籍とWebを比較して-2010

    • Author(s)
      田中弥生
    • Organizer
      社会言語科学会第26回大会
    • Place of Presentation
      大阪大学豊中キャンパス
    • Year and Date
      2010-09-04
  • [Presentation] メディア別外字表現の実態-『現代日本語書き言葉均衡コーパス』収録サンプルより2010

    • Author(s)
      西部みちる, 小林正行, 大島一, 柏野和佳子
    • Organizer
      ことば工学研究会(第35回)
    • Place of Presentation
      神奈川大学横浜キャンパス
    • Year and Date
      2010-08-28
  • [Presentation] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010

    • Author(s)
      柏野和佳子
    • Organizer
      ことば工学研究会(第35回)
    • Place of Presentation
      神奈川大学横浜キャンパス
    • Year and Date
      2010-08-28
  • [Presentation] コーパス収録上問題となるネット表現-Yahoo!知恵袋データを対象に-2010

    • Author(s)
      大島一, 西部みちる, 小林正行, 柏野和佳子
    • Organizer
      ことば工学研究会(第35回)
    • Place of Presentation
      神奈川大学横浜キャンパス
    • Year and Date
      2010-08-27
  • [Presentation] A Web-based Support System for Writing Various Compositions in Japanese Language2010

    • Author(s)
      Masaya YAMAGUCHI, Hisako TANAHASH
    • Organizer
      The 15th Symposium on Japanese Language Education in Europe
    • Place of Presentation
      University of Bucharest
    • Year and Date
      2010-08-26
  • [Presentation] 「病院の言葉」の類型の推測とモデル化-『現代日本語書き言葉均衡コーパス』における語の使用度数を用いた一考察-2010

    • Author(s)
      佐野大樹, 田中牧郎, 丸山岳彦
    • Organizer
      日本言語学会 第140回大会
    • Place of Presentation
      筑波大学
    • Year and Date
      2010-06-20
  • [Presentation] Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese2010

    • Author(s)
      Maekawa, Kikuo, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso, Yasuharu Den
    • Organizer
      7th International Conference on Language Resources and Evaluation (LREC2010)
    • Place of Presentation
      Mediterranean conference centre, Valleta, Malta
    • Year and Date
      2010-05-20
  • [Book] 『現代日本語書き言葉均衡コーパス』におけるサンプリングの原理と応用2011

    • Author(s)
      丸山岳彦, 他
    • Total Pages
      92
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Book] 『現代日本語書き言葉均衡コーパス』に含まれるサンプルおよび書誌情報の設計と実装2011

    • Author(s)
      丸山岳彦, 他
    • Total Pages
      154
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Book] 『現代日本語書き言葉均衡コーパス』における電子化テキストの構築2011

    • Author(s)
      西部みちる, 他
    • Total Pages
      396
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Book] 『現代日本語書き言葉均衡コーパス』における電子化フォーマット ver.2.22011

    • Author(s)
      山口昌也, 他
    • Total Pages
      166
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Book] 『現代日本語書き言葉均衡コーパス』形態論規程集 第4版(上)2011

    • Author(s)
      小椋秀樹, 他
    • Total Pages
      132
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Book] 『現代日本語書き言葉均衡コーパス』形態論規程集 第4版(下)2011

    • Author(s)
      小椋秀樹, 他
    • Total Pages
      228
    • Publisher
      大学共同利用機関法人人間文化研究機構国立国語研究所
  • [Remarks]

    • URL

      http://www.tokuteicorpus.jp/

  • [Remarks]

    • URL

      http://www.ninjal.ac.jp/kotonoha/

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi