• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実績報告書

会話文への発話者情報の付与によるコーパスの拡張

研究課題

研究課題/領域番号 15H03212
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系言語変化研究領域, 教授 (30182489)

研究分担者 柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系音声言語研究領域, 准教授 (50311147)
茂木 俊伸  熊本大学, 文学部, 准教授 (20392540)
金 明哲  同志社大学, 文化情報学部, 教授 (60275469)
高崎 みどり  お茶の水女子大学, 理事・副学長 (60096237)
研究期間 (年度) 2015-04-01 – 2019-03-31
キーワードコーパス / 会話文 / 話者属性 / 小説
研究実績の概要

1.「話者情報付与の対象の再検討」 作業対象の優先順位話者を決めた。優先順位の高いものは,NDC(日本十進分類法)で言うと,「913(日本文学:小説・物語)」と「933(英米文学:小説・物語)」である。ファイル数は前者は4063,後者は850である。小説というジャンルは話者が多様な属性を示し,かつ,作者の属性との関連も分析できる点でもっとも優先すべきであると考えた。ただ,登場人物のすべての性別,年代が特定できるわけではないため,マニュアルを整備し,作業上のゆれが発生しないようにした。次に優先順位が高いのが,「914(日本文学:評論・エッセイ・随筆)」でファイル数は412である。上記3ジャンルでNDC9番台「文学」の約85%を占める。話者情報作業の実際については,2017年3月に2回ポスター発表を行った。2017年3月末の時点で2228ファイルについて話者情報付与が終了した。なお,一部のファイルについて,話者の「職業」や誰に対して話しているか,「相手」の情報も付与する試みを開始した。

2.「他のコーパスとの比較」日本語話し言葉コーパス(CSJ)の学会講演と摸擬講演,名大会話コーパス,と作業中の小説会話文のデータを対象にして,形態論情報を使って分析を行った。その結果,品詞の分布,高頻度語において違いが見られた。また,LLR(対数尤度比)による特徴語の抽出を行った。話者の性別(男,女)と年代(若年層,成年層,老年層)の属性による違いとしては,フィラー,人称代名詞,終助詞などにレジスター差が見られた。

3.「データ共有化の準備」多様な分析に対応するため,発話単位,短単位,語彙素の3つのタイプのデータの仕様を検討した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

作業対象の優先順位を付けたことによって,目標を定めやすくなった。優先順位が高い,小説のファイルに話者情報が付与されれば目的はほぼ達成されると考えられる。

今後の研究の推進方策

1.作業の進捗状況を見計らい,作業対象ファイル数を増やしていくか,それとも,新たな属性(職業,相手)を付与していくかを検討する必要がある。比較を行う他の話し言葉コーパスの属性とも照らし合わせて検討する。

2.作業ファイルの仕様を途中で2度変更したため,新ファイルと旧ファイルの統合が進んでいない。一部手作業が入る可能性もあり,その部分の進捗が懸念される。

  • 研究成果

    (8件)

すべて 2017 2016

すべて 雑誌論文 (2件) 学会発表 (5件) (うち国際学会 1件) 図書 (1件)

  • [雑誌論文] コーパスが変える日本語の科学―日本語研究はどのように変わるか―2016

    • 著者名/発表者名
      山崎誠
    • 雑誌名

      日本語学

      巻: 13(12) ページ: 12-17

  • [雑誌論文] 外来語は文の中でどのように使われるのか2016

    • 著者名/発表者名
      茂木俊伸
    • 雑誌名

      日本語学

      巻: 35(7) ページ: 24-32

  • [学会発表] 発話文への発話者情報付与の基本設計―『現代日本語書き言葉均衡コーパス』収録の小説を対象に―2017

    • 著者名/発表者名
      宮嵜由美,柏野和佳子,山崎誠
    • 学会等名
      言語資源活用ワークショップ2016
    • 発表場所
      国立国語研究所
    • 年月日
      2017-03-07
  • [学会発表] 現代日本語書き言葉均衡コーパス』収録の小説を対象とした話者属性情報付与の検討2017

    • 著者名/発表者名
      宮嵜由美,山崎誠,柏野和佳子
    • 学会等名
      シンポジウム「日常会話コーパス」Ⅱ
    • 発表場所
      国立国語研究所
    • 年月日
      2017-03-01
  • [学会発表] 宇野浩二の文体変化の時期に関する計量分析2016

    • 著者名/発表者名
      劉 雪琴, 金 明哲
    • 学会等名
      計量国語学会第60回大会
    • 発表場所
      日本大学文理学部
    • 年月日
      2016-10-08
  • [学会発表] レジスターの違いによる話しことばの変異2016

    • 著者名/発表者名
      山崎誠
    • 学会等名
      シンポジウム「日常会話コーパス」Ⅰ
    • 発表場所
      国立国語研究所
    • 年月日
      2016-09-01
  • [学会発表] Coherence and quantitative measures of text2016

    • 著者名/発表者名
      Makoto Yamazaki
    • 学会等名
      International Quantitative Linguistics Conference (QUALICO) 2016
    • 発表場所
      Trier (Germany)
    • 年月日
      2016-08-25
    • 国際学会
  • [図書] Rによるデータサイエンス(第2版)2017

    • 著者名/発表者名
      金明哲
    • 総ページ数
      336
    • 出版者
      森北出版

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi