• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

日常対話コーパスにおける述語項構造アノテーションの作成と分析

Research Project

Project/Area Number 19K13195
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 02060:Linguistics-related
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

大村 舞  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, プロジェクト非常勤研究員 (20803563)

Project Period (FY) 2019-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Keywordsコーパス / 話し言葉 / Universal Dependencies / 述語項構造 / 共参照 / 言語学 / アノテーション / 述語項構造 アノテーション
Outline of Research at the Start

本研究では、近年公開された大規模日常会話コーパス『日本語日常会話コーパス(CEJC)』に、述語項構造の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータを開発及び分析に取り組む。従来、文の意味理解のために「述語項構造」の研究が活発に進められてきたが、これらの研究は主に「書き言葉」が主眼であった。「話し言葉」特有の言語現象を分析するためにも、このCEJCに述語項構造の情報を付与したコーパスは重要である。アノテーションを作成し「話し言葉」の述語項構造コーパスの開発および分析を実現する。

Outline of Annual Research Achievements

本研究では、2022年に本公開された大規模日常会話コーパス『日本語日常会話コーパス(Corpus of Everyday Japanese Conversation, CEJC)』に、文の意味表現のひとつである「述語項構造」の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータの開発および分析に取り組んでいる。従来、「述語項構造」の研究は文の意味理解のために活発に進められてきた。しかし、これらの研究は主に「書き言葉」のコーパスが中心であり、「話し言葉」のコーパスにおいては限定的なものしか存在していなかった。「話し言葉」特有の言語現象を分析するためには、このCEJCに述語項構造の情報を付与したコーパスを付与していく方針で作業を進めてきた。そのため、令和元年度から令和四年度にかけて、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことで、大規模な話し言葉の述語項構造コーパスを開発する予定であった。
しかし、CEJCのサンプルを分析すべく進行していくなかで、話し言葉に特有の述語項構造には、予想以上に多様な言語現象が見られること、アノテーションの負担が高いこと、既存の枠組みを超える制定が必要となることが明らかになった。また、日常会話では話者間の共通認識や省略された文脈などが重なり合い、話し言葉における実態を示す語句が省略され、曖昧さを生むことが多いと判明した。そのため、指示詞などの表現がその表現に当てはまるかどうかという「共参照」情報の重要であると判断した。そのため、共参照情報を主軸に日常会話コーパスのアノテーション情報提供を目指すこととした。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本研究ではCEJCに述語項アノテーションを付与しデータを公開することを目的としていた。そのため昨年度までに、話し言葉における述語項としてのアノテーションの仕様を定め、付与する予定であった。
しかし、CEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有のさまざまな言語現象があることが判明し、話し言葉などとの違いを踏まえつつ検討する必要が発生した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。また、項の省略などの現象に対応するためには、共参照なども考える必要がでてきた。
さらに、共通の枠組みとして、独自仕様を採用するよりも、よく使われているコーパスの枠組みを採用するべきか否かの検討に時間を要した。そのため、やや遅れているとした。
現在、述語項構造の基盤となりうる構文情報(係り受け)などは整備され始めているが、さらに、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者を訓練する必要があるため、データを分析する人材を確保しつつ分析を進めている。

Strategy for Future Research Activity

昨年度に続いて検討していた工程の一部を回すことにする。次年度中にアノテーション作業をさらに進めることにする。話し言葉の事例を確認しながらも、述語項構造において「項」を表す「共参照」という事象にアノテーションを付与することを主軸にアノテーション作業に取り組めている。さらに、述語項のアノテーション作業者の人材確保およびアノテーション訓練を十分に行うものとして、アノテーション方針についてまとめたものを成果物および研究発表として出すことを計画している。
データの実装自体は既存のツールを用いれば実現可能だが、既存のデータは「書き言葉」を元にしている。話し言葉の現象を調査した結果、やはりある程度話し言葉に向けての拡張が必要であることが分かった。書き言葉の「述語項構造」や「共参照」の取り組みを元にしつつ、さらに、実用的なアノテーションが必要である。とくに、Universal Dependenciesというフレームワークは話し言葉のアノテーションを付与するのに国際的にも適しているため、既存研究を調査しつつデータ整備に取り組みたい。
アノテーション仕様を求めて、実際にデータを公開することを主眼とする方針にしている。いくつかのサンプル自体はCEJCの本公開により可能となった。述語項構造の基盤となりうる構文情報(係り受け)については整備されつつあるので、それの実態に合わせてアノテーションをしてもらう計画である。

Report

(5 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (17 results)

All 2023 2022 2021 2020 2019 Other

All Journal Article (5 results) (of which Peer Reviewed: 3 results,  Open Access: 5 results) Presentation (11 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

  • [Journal Article] UD_Japanese-CEJC: Dependency Relation Annotation on Corpus of Everyday Japanese Conversation2023

    • Author(s)
      Mai Omura,Hiroshi Matsuda,Masayuki Asahara,Aya Wakasa
    • Journal Title

      Proceedings of the 24th Annual Meeting of the Special Interest Group on Discourse and Dialogue

      Volume: 24 Pages: 324-335

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Spatial Information Annotation Based on the Double Cross Model2023

    • Author(s)
      Mai Omura,Hiroshi Matsuda,Masayuki Asahara,Aya Wakasa
    • Journal Title

      Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation

      Volume: 37 Pages: 137-144

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] 地図を刺激に用いた経路情報参照表現の収集2023

    • Author(s)
      川端良子,大村舞,小西光,浅原正幸,竹内誉羽
    • Journal Title

      言語処理学会第30回年次大会発表論文集

      Volume: 30 Pages: 1345-1350

    • Related Report
      2023 Research-status Report
    • Open Access
  • [Journal Article] 地図を刺激に用いた位置情報参照表現の収集2023

    • Author(s)
      大村舞,川端良子,小西光,浅原正幸,竹内誉羽
    • Journal Title

      言語処理学会第30回年次大会発表論文集

      Volume: 30 Pages: 1469-1474

    • Related Report
      2023 Research-status Report
    • Open Access
  • [Journal Article] Universal Dependencies for Japanese Based on Long-Unit Words by NINJAL2023

    • Author(s)
      Omura Mai、Wakasa Aya、Asahara Masayuki
    • Journal Title

      Journal of Natural Language Processing

      Volume: 30 Issue: 1 Pages: 4-29

    • DOI

      10.5715/jnlp.30.4

    • ISSN
      1340-7619, 2185-8314
    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] 地図を刺激に用いた経路情報参照表現の収集2023

    • Author(s)
      川端良子,大村舞,小西光,浅原正幸,竹内誉羽
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 地図を刺激に用いた位置情報参照表現の収集2023

    • Author(s)
      大村舞,川端良子,小西光,浅原正幸,竹内誉羽
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] UD_Japanese-CEJC: Dependency Relation Annotation on Corpus of Everyday Japanese Conversation2023

    • Author(s)
      Mai Omura,Hiroshi Matsuda,Masayuki Asahara,Aya Wakasa
    • Organizer
      Proceedings of the 24th Annual Meeting of the Special Interest Group on Discourse and Dialogue
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] UD Japanese-CEJC とその評価2023

    • Author(s)
      大村舞, 若狭絢, 松田寛, 浅原正幸
    • Organizer
      言語処理学会第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] Double cross modelによる位置情報フレームアノテーション2023

    • Author(s)
      川端良子, 大村舞, 浅原正幸
    • Organizer
      言語処理学会第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] Word Delimitation Issues in UD Japanese2022

    • Author(s)
      Mai Omura, Aya Wakasa, Masayuki Asahara
    • Organizer
      Universal Dependencies Workshop 2021 (UDW 2021)
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research
  • [Presentation] 国語研長単位に基づくUD Japanese2022

    • Author(s)
      大村舞, 若狭絢, 浅原正幸
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] UD Japaneseに基づく国語研長単位解析系の構築2022

    • Author(s)
      松田寛, 大村舞, 浅原正幸
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 日本語Universal Dependenciesデータの作成・整備の概要2021

    • Author(s)
      大村舞
    • Organizer
      第3回Universal Dependencies 公開研究会
    • Related Report
      2021 Research-status Report
  • [Presentation] UD Japanese GSD の再整備と固有表現情報付与2020

    • Author(s)
      松田寛 , 若狭絢, 山下華代, 大村舞, 浅原正幸
    • Organizer
      言語処理学会第26回年次大会 (NLP2020)
    • Related Report
      2019 Research-status Report
  • [Presentation] 現代日本語書き言葉均衡コーパスのUniversal Dependencies ─UD Japaneseコーパスの一例─2019

    • Author(s)
      大村舞
    • Organizer
      Universal Dependencies シンポジウム Symposium for Universal Dependencies Japanese
    • Related Report
      2019 Research-status Report
  • [Remarks] 『日本語日常会話コーパス』モニター公開版の語彙

    • URL

      https://www2.ninjal.ac.jp/conversation/report/report04.pdf

    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi