• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

会話文への発話者情報の付与によるコーパスの拡張

Research Project

Project/Area Number 15H03212
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系言語変化研究領域, 教授 (30182489)

Co-Investigator(Kenkyū-buntansha) 柏野 和佳子  大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系音声言語研究領域, 准教授 (50311147)
茂木 俊伸  熊本大学, 文学部, 准教授 (20392540)
金 明哲  同志社大学, 文化情報学部, 教授 (60275469)
高崎 みどり  お茶の水女子大学, その他部局等, 理事 (60096237)
Project Period (FY) 2015-04-01 – 2019-03-31
Keywordsコーパス / 会話文 / 話者属性
Outline of Annual Research Achievements

本年度は4年間の作業全体の計画および話者情報の仕様を固めた。
1.作業対象である『現代日本語書き言葉均衡コーパス』(以下、BCCWJ)全体における会話文の箇所の算定を行った。BCCWJには会話(の候補)を表す<speech>および<quote>というタグがあるが、その数は、<speech>タグが354,989箇所(10,947サンプル)<quote>タグが445,796箇所(24,150サンプル)であった。これらの中から会話情報として意味のあるレジスターであるLB(図書館書籍)、PB(出版書籍)、OB(ベストセラー)についてまず作業を開始することにした。これらの3つのレジスターにおいて、<speech>は313,855箇所(9501サンプル)、<quote>は、356,445箇所(18,704サンプル)であり、箇所およびサンプル数のいずれにおいても全体の8割程度を占める。当面は上記3レジスターを作業対象とする。
2.話者情報の仕様の設計
試行作業を経て、効率的に作業が行える仕様として、各会話箇所に対して以下の属性に対する値を付与することにした。「話者名」(話し手の名前、不明の場合は適宜名称を与える)、性別(男、女、不明)、年代(若年層(0~19歳)、成年層(20~59歳)、老年層(60歳以上)の3分類)、必要に応じて「非人間」(人間以外のものが話している場合)、「会話モード(電話、方言、外国語等)」「職業」「相手」。この仕様で491サンプルに対して情報付与を行った。
3.シナリオの著者調査
映画、テレビドラマ502作品の著者のべ671名について著作権がシナリオ作家協会に委託されているかどうかを調査した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

話者情報の仕様の設計にやや時間がかかったが、作業が進捗するにつれ、おおよその見通しが把握出来るようになった。また、現在、作業と行っている小説というジャンルが話者属性、および、発話の状況が多岐にわたるが、今後着手するエッセイやドキュメンタリー類はそれほど複雑ではないため、進捗が早いと思われる。

Strategy for Future Research Activity

1.現時点で利用できる話し言葉のデータ(「日本語話し言葉コーパス」「名大会話コーパス」等からどのような分析が可能かを検討する。
2.『現代日本語書き言葉均衡コーパス』の会話文の特徴を地の文との比較で明らかにすると同時に、上記の話し言葉コーパスとも統一した基準で比較できるようなデータ作成を目指す。
3.研究期間中に情報付与が目標値に達しない場合、作業対象を『現代日本語書き言葉均衡コーパス』の書籍の小説(NDC900番台)に絞ることを検討する。

  • Research Products

    (5 results)

All 2015

All Journal Article (2 results) Presentation (2 results) Book (1 results)

  • [Journal Article] 基本統計量に現れるテキストの特徴2015

    • Author(s)
      山崎誠
    • Journal Title

      日本語学

      Volume: 34 Pages: 78-83

  • [Journal Article] 『現代日本語書き言葉均衡コーパス』による古風な語の研究2015

    • Author(s)
      柏野和佳子
    • Journal Title

      日本語学

      Volume: 34 Pages: 70-75

  • [Presentation] 若者のあいさつ言葉と待遇性の考察―ケータイメールコーパスにおける「おつかれさま」の出現例をもとに―2015

    • Author(s)
      宮嵜由美・西野あゆみ・柏野和佳子・山崎誠
    • Organizer
      計量国語学会第59回大会
    • Place of Presentation
      神戸大学鶴甲代第1キャンパス
    • Year and Date
      2015-09-26
  • [Presentation] テキストの計量語彙論的指標はどのような条件で変化するか2015

    • Author(s)
      山崎誠
    • Organizer
      第8回コーパス日本語学ワークショップ
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2015-09-01
  • [Book] Recent Contributions to Quantitative Linguistics2015

    • Author(s)
      Makoto Yamazaki
    • Total Pages
      284
    • Publisher
      De Gruyter

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi