• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2010 年度 研究成果報告書

代表性を有する現代日本語書籍コーパスの構築

計画研究

  • PDF
研究領域代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備
研究課題/領域番号 18061007
研究種目

特定領域研究

配分区分補助金
審査区分 人文・社会系
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

研究分担者 丸山 岳彦  国立国語研究所, 言語資源研究系, 助教 (90392539)
柏野 和佳子  国立国語研究所, 言語資源研究系, 准教授 (50311147)
佐野 大樹  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (60455425)
山口 昌也  国立国語研究所, 言語資源研究系, 助教 (30302920)
間淵 洋子  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (10415614)
高田 智和  国立国語研究所, 理論・構造研究系, 准教授 (90415612)
小椋 秀樹  国立国語研究所, 言語資源研究系, 准教授 (00321547)
冨士池 優美  国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (20510572)
小沼 悦  国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
森本 祥子  学習院大学, 大学院・人文科学研究科, 助教 (80342939)
大和 淳  文化庁, 長官官房著作権課, 課長補佐 (10377103)
研究期間 (年度) 2006 – 2010
キーワード均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態解析 / 著作権処理
研究概要

本研究では、今後の日本語研究にとって利用価値の高い、大規模な書籍コーパスを構築した。この書籍コーパスは、以下の特徴を持つ日本で最初の本格的な書き言葉コーパスである。(1)ランダムサンプリングによって母集団を過不足なく代表すること。(2)短単位・長単位の2種類の言語単位による形態論情報が付与されていること。(3)XMLにより文書構造、形態論情報、文字情報等が記述されていること。(4)可能な限りすべてのサンプルの著者に連絡をとり著作権処理を施したこと。書籍コーパスは『現代日本語書き言葉均衡コーパス』の主要な部分を占め、2011年中に一般に公開する。

  • 研究成果

    (35件)

すべて 2011 2010 2009 2008 2007 2006 その他

すべて 雑誌論文 (11件) (うち査読あり 8件) 学会発表 (21件) 備考 (3件)

  • [雑誌論文] 小磯花絵,現代日本語書き言葉における修辞ユニット分析の適用性の検証-『書き言葉らしさ・話し言葉らしさ』と脱文脈化言語・文脈化言語の関係-」2011

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      機能言語学研究 6

    • 査読あり
  • [雑誌論文] 『話し言葉らしさ・書き言葉らしさ』の計測-語彙密度の日本語への適用性の検証2010

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      機能言語研究 5

      ページ: 89-102

    • 査読あり
  • [雑誌論文] ブログにおける評価表現の使い分けの特徴-アプレイザル理論からみた評価基準と表現の直接性/間接性の関係-2010

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      計量国語学 27(7)

      ページ: 249-269

    • 査読あり
  • [雑誌論文] Manabu Okumura An Approach toward Register Classification of Book Samples in the Balanced Corpus of Contemporary Written Japanese2010

    • 著者名/発表者名
      Wakako Kashino
    • 雑誌名

      24th Pacific Asia Conference on Language, Information and Computation (PACLIC24)(東北大学)

    • 査読あり
  • [雑誌論文] 代表性を有する大規模日本語書き言葉コーパスの構築2009

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      人工知能学会誌 24(5)

      ページ: 623-631

  • [雑誌論文] 『日本語話し言葉コーパス』に基づく言い直し表現の機能的分析2008

    • 著者名/発表者名
      丸山岳彦
    • 雑誌名

      日本語文法 8巻2号

      ページ: 121-139

    • 査読あり
  • [雑誌論文] Lexical Density in Japanese Texts : classifying text samples in Balanced Corpus of Contemporary Written Japanese2008

    • 著者名/発表者名
      Sano Motoki, Takehiko Maruyama
    • 雑誌名

      Proceedings of 35th International Systemic Functional Congress

      ページ: 359-364

    • 査読あり
  • [雑誌論文] Statistical sampling method used in the Balanced Corpus of Contemporary Written Japanese2008

    • 著者名/発表者名
      Takehiko Maruyama, Makoto Yamazaki, Kikuo Maekawa
    • 雑誌名

      18th International Congress of Linguists

    • 査読あり
  • [雑誌論文] コーパスのための形態論情報2008

    • 著者名/発表者名
      小椋秀樹
    • 雑誌名

      国文学解釈と鑑賞 74-1

      ページ: 26-34

    • 査読あり
  • [雑誌論文] 国立国語研究所における諸研究-語彙調査の系譜の中心にして-2008

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      国文学解釈と鑑賞 74-1

      ページ: 183-191

  • [雑誌論文] コーパス言語学の射程2007

    • 著者名/発表者名
      丸山岳彦, 田野村忠温
    • 雑誌名

      日本語科学 22

      ページ: 05-12

  • [学会発表] 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析-BCCWJの文書構造情報分析を中心に-2011

    • 著者名/発表者名
      冨士池優美, 小西光, 小椋秀樹, ほか
    • 学会等名
      言語処理学会第17回年次大会
    • 発表場所
      豊橋技術科学大学
    • 年月日
      2011-03-09
  • [学会発表] 国語辞典に「古い」と注記される語の現代書き言葉における使用傾向の調査2010

    • 著者名/発表者名
      柏野和佳子, 奥村学
    • 学会等名
      第88回人文科学とコンピュータ研究会発表会
    • 発表場所
      国立国語研究所
    • 年月日
      2010-10-30
  • [学会発表] テキストにおける多義語の意味実現の傾向2010

    • 著者名/発表者名
      山崎誠
    • 学会等名
      計量国語学会第54回大会横言う集(25-30)
    • 発表場所
      大正大学
    • 年月日
      2010-09-11
  • [学会発表] 「直接的な語り」という表現スタイルをもつ書籍テキストの人手抽出の試み2010

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      第35回ことば工学研究会
    • 発表場所
      神奈川大学横浜キャンパス
    • 年月日
      2010-08-28
  • [学会発表] Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese2010

    • 著者名/発表者名
      Maekawa, Kikuo, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso, Yasuharu Den
    • 学会等名
      7th International Conference on Language Resources and Evaluation (LREC2010)
    • 発表場所
      Mediterranean conference centre, Valleta, Malta.
    • 年月日
      2010-05-20
  • [学会発表] コーパスを用いたテキスト分類指標の検討-BCCWJの文書構造情報分析を中心に-2010

    • 著者名/発表者名
      間淵洋子
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] 形態素解析辞書UniDicにおける同語異語判別について2010

    • 著者名/発表者名
      小椋秀樹
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] 代表性を有するコーパスの設計とサンプリングの実際-コーパスに基づく言語研究の可能性と限界-2010

    • 著者名/発表者名
      丸山岳彦
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-09
  • [学会発表] 和語や漢語のカタカナ表記:『現代日本語書き言葉均衡コーパス』における使用実態2009

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      計量国語学会第54回大会予稿集(38-43)
    • 発表場所
      東京女子大学
    • 年月日
      2009-09-12
  • [学会発表] 現代日本語書き言葉均衡コーパスのサンプル長と言語的特徴-固定長サンプルと可変長サンプルの質的な違い-2009

    • 著者名/発表者名
      山崎誠, 丸山岳彦, 柏野和佳子, 佐野大樹, 秋元祐哉, 稲益佐知子, 田中弥生, 大矢内夢子
    • 学会等名
      言語処理学会第15回年次大会[NLP2009]予稿集(618-621)
    • 発表場所
      鳥取大学
    • 年月日
      2009-03-05
  • [学会発表] 『現代日本語書き言葉均衡コーパス』のサンプル収録方法」言語処理学会2009

    • 著者名/発表者名
      柏野和佳子, 丸山岳彦, 稲益佐知子, 秋元祐哉, 田中弥生, 佐野大樹, 大矢内夢子, 山崎誠
    • 学会等名
      第15回年次大会[NLP2009]予稿集(pp.196-199)
    • 発表場所
      鳥取大学
    • 年月日
      2009-03-03
  • [学会発表] 書籍の文章の多様性をとらえる観点付与の設計-『現代日本語書き言葉均衡コーパス』の収録文章を対象に-2008

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      第30回ことば工学研究会予稿集(pp.11-22)
    • 発表場所
      武蔵野美術大学新宿サテライトROOM.
    • 年月日
      2008-10-31
  • [学会発表] 大規模バランストコーパスにおけるテクスト分類に向けて-語彙密計測からみたコンテクスト情報-2008

    • 著者名/発表者名
      佐野大樹
    • 学会等名
      日本機能言語学会第16回秋季大会
    • 発表場所
      お茶の水女子大学
    • 年月日
      2008-10-12
  • [学会発表] システミック文法に基づく書きことばの複雑さ測定-日本語大規模コーパスを用いた語彙密度計測-2008

    • 著者名/発表者名
      佐野大樹, 丸山岳彦
    • 学会等名
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.1097-1100)
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 書籍の生産実態を反映するサンプリング-NDCごとに取得したサンプルの多様性の分析-2008

    • 著者名/発表者名
      柏野和佳子, 丸山岳彦, 秋元祐哉, 稲益佐知子, 佐野大樹, 田中弥生, 山崎誠
    • 学会等名
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.939-942)
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008

    • 著者名/発表者名
      小椋秀樹, 小木曽智信, 原裕, 小磯花絵, 冨士池優美
    • 学会等名
      言語処理学会第14回年次大会[NLP2008]予稿集(pp.935-938)
    • 発表場所
      東京大学
    • 年月日
      2008-03-20
  • [学会発表] 現代日本語書き言葉均衡コーパスの設計と検索デモンストレーション2007

    • 著者名/発表者名
      山崎誠, 丸山岳彦, 山口昌也, 小椋秀樹, 森本祥子, 柏野和佳子, 佐野大樹, 高田智和, 間淵洋子, 北村雅則, 小木曽智信, 小磯花絵, 冨士池優美, 小沼悦, 田中牧郎, 前川喜久雄
    • 学会等名
      日本語学会2007年度秋季大会(沖縄国際大学)予稿集(pp.239-246)
    • 発表場所
      沖縄国際大学
    • 年月日
      2007-11-18
  • [学会発表] 書き言葉の構造を捉える-書き言葉の多様な構造とサンプリング手法-2007

    • 著者名/発表者名
      丸山岳彦, 柏野和佳子, 稲益佐知子, 秋元祐哉, 吉田谷幸宏, 山崎誠
    • 学会等名
      言語処理学会第13回年次大会[NLP2007]予稿集(pp.704-707)
    • 発表場所
      龍谷大学
    • 年月日
      2007-03-21
  • [学会発表] 「現代日本語書き言葉均衡コーパス」の短単位解析について2007

    • 著者名/発表者名
      小椋秀樹, 小木曽智信, 小磯花絵, 冨士池優美, 相馬さつき
    • 学会等名
      言語処理学会第13回年次大会[NLP2007]予稿集(pp.720-723)
    • 発表場所
      龍谷大学
    • 年月日
      2007-03-21
  • [学会発表] 文字・表記研究とコーパス2006

    • 著者名/発表者名
      高田智和, 山口昌也
    • 学会等名
      漢字文献情報処理研究会第9回大会
    • 発表場所
      ピアザ淡海305会議室(大津市)
    • 年月日
      2006-12-16
  • [学会発表] 現代日本語書き言葉均衡コーパスのサンプリング方法について2006

    • 著者名/発表者名
      山崎誠, 丸山岳彦, 柏野和佳子, 前川喜久雄, 稲益佐知子, 秋元祐哉, 吉田谷幸宏
    • 学会等名
      計量国語学会第50回大会
    • 発表場所
      国立国語研究所
    • 年月日
      2006-09-30
  • [備考] ホームページ等

  • [備考] 特定領域「日本語コーパス」

    • URL

      http://www.tokuteicorpus.jp/

  • [備考] KOTONOHA『現代日本語書き言葉均衡コーパス』検索デモンストレーション

    • URL

      http://www.kotonoha.gr.jp/demo/

URL: 

公開日: 2012-02-13   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi