• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

代表性を有する現代日本語書籍コーパスの構築

計画研究

研究領域代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備
研究課題/領域番号 18061007
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (30182489)

研究分担者 丸山 岳彦  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (90392539)
山口 昌也  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 助教 (30302920)
柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (50311147)
小椋 秀樹  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 準教授 (00321547)
小沼 悦  大学共同利用機関法人人間文化研究機構国立国語研究所, 管理部研究推進課, 専門職員 (00311150)
キーワード均衡コーパス / 書き言葉 / 代表性 / 書籍 / サンプリング / XML / 形態素解析 / 著作権処理
研究概要

平成20年度に行った主要な調査研究の内容は以下のとおりである。
1. 生産実態(出版)サブコーパスの構築:2,079サンプルのサンプリング及び電子化(文字入力)を終了,昨年度分と合わせて,約2,500サンプルに対してタグ付けを実施したことにより,当初の目標であった約2,900万語の取得を達成した。
2. 流通実態(図書館)サブコーパスの構築:494サンプルのサンプリング及び電子化(文字入力)及びタグ付けを実施し,当初の目標であった約3,000万語の取得を達成した。
3. 形態素解析用辞書UniDicの整備拡充:構築中のデータの解析結果から未登録語を採録し,年度当初の語彙素数147,464・書字形214,283に対して,語彙素数183,799・書字形286,896に増補した。
4. コアデータの設計と構築:機械学習用に精度の高い解析を行うコアデータについては,雑誌20「万語,Yahoo!知恵袋10万語の短単位での整備を行うとともに,書籍,白書,新聞の長単位(約64万語)による解析・人手修正及び文節境界の付与を完了した。
5. 著作権処理:2010年3月末時点で,書籍(生産実態+流通実態+ベストセラー)の処理対象サンプル数24,050に対し,著作権者へ連絡済みのものが20,136サンプル(約84%),そのうち許諾が得られたものが13,766サンプルである。連絡が取れた場合を母数とした許諾率は約68%である。
6. 報告書の刊行:『JIS X 0213:2004運用の検証』(2009年9月),『『現代日本語書き言葉均衡コーパス』形態論情報規程集』第3版(2010年2月)の2冊を刊行した。

  • 研究成果

    (17件)

すべて 2010 2009 その他

すべて 雑誌論文 (4件) (うち査読あり 1件) 学会発表 (10件) 図書 (1件) 備考 (2件)

  • [雑誌論文] 「話し言葉らしさ・書き言葉らしさ」の計測-語彙密度の日本語への適用性の検証-2010

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      機能言語研究 5

      ページ: 89-102

    • 査読あり
  • [雑誌論文] プログにおける評価情報の分類と体系化-アプレイザル理論を用いて2010

    • 著者名/発表者名
      佐野大樹
    • 雑誌名

      信学技報 NLC2009-39

      ページ: 37-42

  • [雑誌論文] Q&Aサイトの「質問-回答」における結束性-省略の特徴分析-2010

    • 著者名/発表者名
      田中弥生
    • 雑誌名

      信学技報 NLC2009-39

      ページ: 7-12

  • [雑誌論文] 代表性を有する大規模日本語書き言葉コーパスの構築2009

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      人工知能学会誌 24-5

      ページ: 623-631

  • [学会発表] 修辞ユニットを用いた書き言葉の分析-「書き言葉・話し言葉らしさ」と(脱)文脈化の関係-2010

    • 著者名/発表者名
      佐野大樹
    • 学会等名
      第25回社会言語科学会研究大会
    • 発表場所
      慶応大学
    • 年月日
      2010-03-13
  • [学会発表] コーパスを用いたテキスト分類指標の検討-BCCWJの文書構造情報分析を中心に-2010

    • 著者名/発表者名
      間淵洋子
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] 形態素解析辞書UniDicにおける同語異語判別について2010

    • 著者名/発表者名
      小椋秀樹
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] 代表性を有するコーパスの設計とサンプリングの実際-コーパスに基づく言語研究の可能性と限界-2010

    • 著者名/発表者名
      丸山岳彦
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-09
  • [学会発表] 評価表現に基づくブログ分類の試み-アプレイザル理論を用いて-2010

    • 著者名/発表者名
      佐野大樹
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-09
  • [学会発表] 丁寧対文内における従属句の文体と接続助詞について-『現代日本語書き言葉均衡コーパス』を資料として-2009

    • 著者名/発表者名
      宮内佐夜香
    • 学会等名
      日本語学会2009年度秋季大会
    • 発表場所
      島根大学
    • 年月日
      2009-11-01
  • [学会発表] Context based register typology における社会意味過程カテゴリの言語的特徴の検討2009

    • 著者名/発表者名
      佐野大樹
    • 学会等名
      日本機能言語学会秋季大会
    • 発表場所
      同志社大学
    • 年月日
      2009-10-10
  • [学会発表] 『現代日本語書き言葉均衡コーパス』の構築と日本語研究の展望2009

    • 著者名/発表者名
      山崎誠
    • 学会等名
      韓国日本語学会シンポジウム
    • 発表場所
      建国大学校(韓国)
    • 年月日
      2009-09-19
  • [学会発表] 和語や漢語のカタカナ表記:『現代日本語書き言葉均衡コーパス』における使用実態2009

    • 著者名/発表者名
      柏野和佳子
    • 学会等名
      計量国語学会第54回大会
    • 発表場所
      東京女子大学
    • 年月日
      2009-09-12
  • [学会発表] 『現代日本語書き言葉均衡コーパス』に現れる接続表現形式のジャンル別比較2009

    • 著者名/発表者名
      宮内佐夜香
    • 学会等名
      日本語学会2009年度春季大会
    • 発表場所
      武庫川女子大学
    • 年月日
      2009-05-30
  • [図書] 言語処理学事典(「1.2コーパス」「1.2.1コーパスの類型」「1.2.2コーパスの構築」の章を執筆)2009

    • 著者名/発表者名
      丸山岳彦
    • 総ページ数
      913(担当箇所:58-71)
    • 出版者
      共立出版
  • [備考]

    • URL

      http://www.tokuteicorpus.jp/

  • [備考]

    • URL

      http://www.ninjal.ac.jp/kotonoha/

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi