• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

Expansion of corpus by annotating speaker's information to conversation sentences

Research Project

Project/Area Number 15H03212
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系言語変化研究領域, 教授 (30182489)

Co-Investigator(Kenkyū-buntansha) 柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系音声言語研究領域, 准教授 (50311147)
茂木 俊伸  熊本大学, 文学部, 准教授 (20392540)
金 明哲  同志社大学, 文化情報学部, 教授 (60275469)
高崎 みどり  お茶の水女子大学, 理事・副学長 (60096237)
Project Period (FY) 2015-04-01 – 2019-03-31
Keywordsコーパス / 会話文 / 話者属性 / 小説
Outline of Annual Research Achievements

1.「話者情報付与の対象の再検討」 作業対象の優先順位話者を決めた。優先順位の高いものは,NDC(日本十進分類法)で言うと,「913(日本文学:小説・物語)」と「933(英米文学:小説・物語)」である。ファイル数は前者は4063,後者は850である。小説というジャンルは話者が多様な属性を示し,かつ,作者の属性との関連も分析できる点でもっとも優先すべきであると考えた。ただ,登場人物のすべての性別,年代が特定できるわけではないため,マニュアルを整備し,作業上のゆれが発生しないようにした。次に優先順位が高いのが,「914(日本文学:評論・エッセイ・随筆)」でファイル数は412である。上記3ジャンルでNDC9番台「文学」の約85%を占める。話者情報作業の実際については,2017年3月に2回ポスター発表を行った。2017年3月末の時点で2228ファイルについて話者情報付与が終了した。なお,一部のファイルについて,話者の「職業」や誰に対して話しているか,「相手」の情報も付与する試みを開始した。

2.「他のコーパスとの比較」日本語話し言葉コーパス(CSJ)の学会講演と摸擬講演,名大会話コーパス,と作業中の小説会話文のデータを対象にして,形態論情報を使って分析を行った。その結果,品詞の分布,高頻度語において違いが見られた。また,LLR(対数尤度比)による特徴語の抽出を行った。話者の性別(男,女)と年代(若年層,成年層,老年層)の属性による違いとしては,フィラー,人称代名詞,終助詞などにレジスター差が見られた。

3.「データ共有化の準備」多様な分析に対応するため,発話単位,短単位,語彙素の3つのタイプのデータの仕様を検討した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

作業対象の優先順位を付けたことによって,目標を定めやすくなった。優先順位が高い,小説のファイルに話者情報が付与されれば目的はほぼ達成されると考えられる。

Strategy for Future Research Activity

1.作業の進捗状況を見計らい,作業対象ファイル数を増やしていくか,それとも,新たな属性(職業,相手)を付与していくかを検討する必要がある。比較を行う他の話し言葉コーパスの属性とも照らし合わせて検討する。

2.作業ファイルの仕様を途中で2度変更したため,新ファイルと旧ファイルの統合が進んでいない。一部手作業が入る可能性もあり,その部分の進捗が懸念される。

  • Research Products

    (8 results)

All 2017 2016

All Journal Article (2 results) Presentation (5 results) (of which Int'l Joint Research: 1 results) Book (1 results)

  • [Journal Article] コーパスが変える日本語の科学―日本語研究はどのように変わるか―2016

    • Author(s)
      山崎誠
    • Journal Title

      日本語学

      Volume: 13(12) Pages: 12-17

  • [Journal Article] 外来語は文の中でどのように使われるのか2016

    • Author(s)
      茂木俊伸
    • Journal Title

      日本語学

      Volume: 35(7) Pages: 24-32

  • [Presentation] 発話文への発話者情報付与の基本設計―『現代日本語書き言葉均衡コーパス』収録の小説を対象に―2017

    • Author(s)
      宮嵜由美,柏野和佳子,山崎誠
    • Organizer
      言語資源活用ワークショップ2016
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2017-03-07
  • [Presentation] 現代日本語書き言葉均衡コーパス』収録の小説を対象とした話者属性情報付与の検討2017

    • Author(s)
      宮嵜由美,山崎誠,柏野和佳子
    • Organizer
      シンポジウム「日常会話コーパス」Ⅱ
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2017-03-01
  • [Presentation] 宇野浩二の文体変化の時期に関する計量分析2016

    • Author(s)
      劉 雪琴, 金 明哲
    • Organizer
      計量国語学会第60回大会
    • Place of Presentation
      日本大学文理学部
    • Year and Date
      2016-10-08
  • [Presentation] レジスターの違いによる話しことばの変異2016

    • Author(s)
      山崎誠
    • Organizer
      シンポジウム「日常会話コーパス」Ⅰ
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2016-09-01
  • [Presentation] Coherence and quantitative measures of text2016

    • Author(s)
      Makoto Yamazaki
    • Organizer
      International Quantitative Linguistics Conference (QUALICO) 2016
    • Place of Presentation
      Trier (Germany)
    • Year and Date
      2016-08-25
    • Int'l Joint Research
  • [Book] Rによるデータサイエンス(第2版)2017

    • Author(s)
      金明哲
    • Total Pages
      336
    • Publisher
      森北出版

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi