• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Final Research Report

Compilation of a balanced book corpus of contemporary written Japanese

Planned Research

  • PDF
Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061007
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Humanities and Social Sciences
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

YAMAZAKI Makoto  The National Institute for Japanese Language, 言語資源研究系, 准教授 (30182489)

Co-Investigator(Kenkyū-buntansha) MARUYAMA Takehiko  国立国語研究所, 言語資源研究系, 助教 (90392539)
KASHINO Wakako  国立国語研究所, 言語資源研究系, 准教授 (50311147)
SANO Motoki  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (60455425)
YAMAGUCHI Masaya  国立国語研究所, 言語資源研究系, 助教 (30302920)
MABUCHI Yoko  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (10415614)
TAKADA Tomokazu  国立国語研究所, 理論・構造研究系, 准教授 (90415612)
OGURA Hideki  国立国語研究所, 言語資源研究系, 准教授 (00321547)
FUJIIKE Yumi  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (20510572)
ONUMA Etsu  国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
MORIMOTO Sachiko  学習院大学, 大学院・人文科学研究科, 助教 (80342939)
大和 淳  文化庁, 長官官房著作権課, 課長補佐 (10377103)
Project Period (FY) 2006 – 2010
Keywords均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態解析 / 著作権処理
Research Abstract

We have compiled a large balanced corpus of books which will be a highly useful resource for the future research of Japanese language. This corpus is the first authentic balanced written corpus in Japan and has the following characteristics.(1)Represents the distribution of population properly by random sampling. (2)Segmented by two kinds of word unit(short word unit and long word unit). (3)Text strucrure, morphological information and character information are annotated using XML.(4)Every sample is sought the copyright permission as long as possible.
The book corpus is the main part of the BCCWJ(Balanced Corpus of Contemporary Written Japanese) and will be open to the public in 2011.

  • Research Products

    (35 results)

All 2011 2010 2009 2008 2007 2006 Other

All Journal Article (11 results) (of which Peer Reviewed: 8 results) Presentation (21 results) Remarks (3 results)

  • [Journal Article] 小磯花絵,現代日本語書き言葉における修辞ユニット分析の適用性の検証-『書き言葉らしさ・話し言葉らしさ』と脱文脈化言語・文脈化言語の関係-」2011

    • Author(s)
      佐野大樹
    • Journal Title

      機能言語学研究 6

    • Peer Reviewed
  • [Journal Article] 『話し言葉らしさ・書き言葉らしさ』の計測-語彙密度の日本語への適用性の検証2010

    • Author(s)
      佐野大樹
    • Journal Title

      機能言語研究 5

      Pages: 89-102

    • Peer Reviewed
  • [Journal Article] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010

    • Author(s)
      佐野大樹
    • Journal Title

      計量国語学 27(7)

      Pages: 249-269

    • Peer Reviewed
  • [Journal Article] Manabu Okumura An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010

    • Author(s)
      Wakako Kashino
    • Journal Title

      24th Pacific Asia Conference on Language, Information and Computation (PACLIC24)(東北大学)

    • Peer Reviewed
  • [Journal Article] 代表性を有する大規模日本語書き言葉コーパスの構築2009

    • Author(s)
      山崎誠
    • Journal Title

      人工知能学会誌 24(5)

      Pages: 623-631

  • [Journal Article] 『日本語話し言葉コーパス』に基づく言い直し表現の機能的分析2008

    • Author(s)
      丸山岳彦
    • Journal Title

      日本語文法 8巻2号

      Pages: 121-139

    • Peer Reviewed
  • [Journal Article] Lexical Density in Japanese Texts : classifying text samples in Balanced Corpus of Contemporary Written Japanese2008

    • Author(s)
      Sano Motoki, Takehiko Maruyama
    • Journal Title

      Proceedings of 35th International Systemic Functional Congress

      Pages: 359-364

    • Peer Reviewed
  • [Journal Article] Statistical sampling method used in the Balanced Corpus of Contemporary Written Japanese2008

    • Author(s)
      Takehiko Maruyama, Makoto Yamazaki, Kikuo Maekawa
    • Journal Title

      18th International Congress of Linguists

    • Peer Reviewed
  • [Journal Article] コーパスのための形態論情報2008

    • Author(s)
      小椋秀樹
    • Journal Title

      国文学解釈と鑑賞 74-1

      Pages: 26-34

    • Peer Reviewed
  • [Journal Article] 国立国語研究所における諸研究-語彙調査の系譜の中心にして-2008

    • Author(s)
      山崎誠
    • Journal Title

      国文学解釈と鑑賞 74-1

      Pages: 183-191

  • [Journal Article] コーパス言語学の射程2007

    • Author(s)
      丸山岳彦, 田野村忠温
    • Journal Title

      日本語科学 22

      Pages: 05-12

  • [Presentation] 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析-BCCWJの文書構造情報分析を中心に-2011

    • Author(s)
      冨士池優美, 小西光, 小椋秀樹, ほか
    • Organizer
      言語処理学会第17回年次大会
    • Place of Presentation
      豊橋技術科学大学
    • Year and Date
      2011-03-09
  • [Presentation] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010

    • Author(s)
      柏野和佳子, 奥村学
    • Organizer
      第88回人文科学とコンピュータ研究会発表会
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2010-10-30
  • [Presentation] テキストにおける多義語の意味実現の傾向2010

    • Author(s)
      山崎誠
    • Organizer
      計量国語学会第54回大会横言う集(25-30)
    • Place of Presentation
      大正大学
    • Year and Date
      2010-09-11
  • [Presentation] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010

    • Author(s)
      柏野和佳子
    • Organizer
      第35回ことば工学研究会
    • Place of Presentation
      神奈川大学横浜キャンパス
    • Year and Date
      2010-08-28
  • [Presentation] Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese2010

    • Author(s)
      Maekawa, Kikuo, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso, Yasuharu Den
    • Organizer
      7th International Conference on Language Resources and Evaluation (LREC2010)
    • Place of Presentation
      Mediterranean conference centre, Valleta, Malta.
    • Year and Date
      2010-05-20
  • [Presentation] コーパスを用いたテキスト分類指標の検討-BCCWJの文書構造情報分析を中心に-2010

    • Author(s)
      間淵洋子
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-10
  • [Presentation] 形態素解析辞書UniDicにおける同語異語判別について2010

    • Author(s)
      小椋秀樹
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-10
  • [Presentation] 代表性を有するコーパスの設計とサンプリングの実際-コーパスに基づく言語研究の可能性と限界-2010

    • Author(s)
      丸山岳彦
    • Organizer
      言語処理学会第16回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      2010-03-09
  • [Presentation] 和語や漢語のカタカナ表記:『現代日本語書き言葉均衡コーパス』における使用実態2009

    • Author(s)
      柏野和佳子
    • Organizer
      計量国語学会第54回大会予稿集(38-43)
    • Place of Presentation
      東京女子大学
    • Year and Date
      2009-09-12
  • [Presentation] 現代日本語書き言葉均衡コーパスのサンプル長と言語的特徴-固定長サンプルと可変長サンプルの質的な違い-2009

    • Author(s)
      山崎誠, 丸山岳彦, 柏野和佳子, 佐野大樹, 秋元祐哉, 稲益佐知子, 田中弥生, 大矢内夢子
    • Organizer
      言語処理学会第15回年次大会[NLP2009]予稿集(618-621)
    • Place of Presentation
      鳥取大学
    • Year and Date
      2009-03-05
  • [Presentation] 『現代日本語書き言葉均衡コーパス』のサンプル収録方法」言語処理学会2009

    • Author(s)
      柏野和佳子, 丸山岳彦, 稲益佐知子, 秋元祐哉, 田中弥生, 佐野大樹, 大矢内夢子, 山崎誠
    • Organizer
      第15回年次大会[NLP2009]予稿集(pp.196-199)
    • Place of Presentation
      鳥取大学
    • Year and Date
      2009-03-03
  • [Presentation] 書籍の文章の多様性をとらえる観点付与の設計-『現代日本語書き言葉均衡コーパス』の収録文章を対象に-2008

    • Author(s)
      柏野和佳子
    • Organizer
      第30回ことば工学研究会予稿集(pp.11-22)
    • Place of Presentation
      武蔵野美術大学新宿サテライトROOM.
    • Year and Date
      2008-10-31
  • [Presentation] 大規模バランストコーパスにおけるテクスト分類に向けて-語彙密計測からみたコンテクスト情報-2008

    • Author(s)
      佐野大樹
    • Organizer
      日本機能言語学会第16回秋季大会
    • Place of Presentation
      お茶の水女子大学
    • Year and Date
      2008-10-12
  • [Presentation] システミック文法に基づく書きことばの複雑さ測定-日本語大規模コーパスを用いた語彙密度計測-2008

    • Author(s)
      佐野大樹, 丸山岳彦
    • Organizer
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.1097-1100)
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 書籍の生産実態を反映するサンプリング-NDCごとに取得したサンプルの多様性の分析-2008

    • Author(s)
      柏野和佳子, 丸山岳彦, 秋元祐哉, 稲益佐知子, 佐野大樹, 田中弥生, 山崎誠
    • Organizer
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.939-942)
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008

    • Author(s)
      小椋秀樹, 小木曽智信, 原裕, 小磯花絵, 冨士池優美
    • Organizer
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.935-938)
    • Place of Presentation
      東京大学
    • Year and Date
      2008-03-20
  • [Presentation] 現代日本語書き言葉均衡コーパスの設計と検索デモンストレーション2007

    • Author(s)
      山崎誠, 丸山岳彦, 山口昌也, 小椋秀樹, 森本祥子, 柏野和佳子, 佐野大樹, 高田智和, 間淵洋子, 北村雅則, 小木曽智信, 小磯花絵, 冨士池優美, 小沼悦, 田中牧郎, 前川喜久雄
    • Organizer
      日本語学会2007年度秋季大会(沖縄国際大学)予稿集(pp.239-246)
    • Place of Presentation
      沖縄国際大学
    • Year and Date
      2007-11-18
  • [Presentation] 書き言葉の構造を捉える-書き言葉の多様な構造とサンプリング手法-2007

    • Author(s)
      丸山岳彦, 柏野和佳子, 稲益佐知子, 秋元祐哉, 吉田谷幸宏, 山崎誠
    • Organizer
      言語処理学会第13回年次大会[NLP2007]予稿集(pp.704-707)
    • Place of Presentation
      龍谷大学
    • Year and Date
      2007-03-21
  • [Presentation] 「現代日本語書き言葉均衡コーパス」の短単位解析について2007

    • Author(s)
      小椋秀樹, 小木曽智信, 小磯花絵, 冨士池優美, 相馬さつき
    • Organizer
      言語処理学会第13回年次大会[NLP2007]予稿集(pp.720-723)
    • Place of Presentation
      龍谷大学
    • Year and Date
      2007-03-21
  • [Presentation] 文字・表記研究とコーパス2006

    • Author(s)
      高田智和, 山口昌也
    • Organizer
      漢字文献情報処理研究会第9回大会
    • Place of Presentation
      ピアザ淡海305会議室(大津市)
    • Year and Date
      2006-12-16
  • [Presentation] 現代日本語書き言葉均衡コーパスのサンプリング方法について2006

    • Author(s)
      山崎誠, 丸山岳彦, 柏野和佳子, 前川喜久雄, 稲益佐知子, 秋元祐哉, 吉田谷幸宏
    • Organizer
      計量国語学会第50回大会
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2006-09-30
  • [Remarks] ホームページ等

  • [Remarks] 特定領域「日本語コーパス」

    • URL

      http://www.tokuteicorpus.jp/

  • [Remarks] KOTONOHA『現代日本語書き言葉均衡コーパス』検索デモンストレーション

    • URL

      http://www.kotonoha.gr.jp/demo/

URL: 

Published: 2012-02-13   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi