日常対話コーパスにおける述語項構造アノテーションの作成と分析
Project/Area Number |
19K13195
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
大村 舞 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, プロジェクト非常勤研究員 (20803563)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | コーパス / 話し言葉 / Universal Dependencies / 述語項構造 / 共参照 / 言語学 / アノテーション / 述語項構造 アノテーション |
Outline of Research at the Start |
本研究では、近年公開された大規模日常会話コーパス『日本語日常会話コーパス(CEJC)』に、述語項構造の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータを開発及び分析に取り組む。従来、文の意味理解のために「述語項構造」の研究が活発に進められてきたが、これらの研究は主に「書き言葉」が主眼であった。「話し言葉」特有の言語現象を分析するためにも、このCEJCに述語項構造の情報を付与したコーパスは重要である。アノテーションを作成し「話し言葉」の述語項構造コーパスの開発および分析を実現する。
|
Outline of Annual Research Achievements |
本研究では、2022年に本公開された大規模日常会話コーパス『日本語日常会話コーパス(Corpus of Everyday Japanese Conversation, CEJC)』に、文の意味表現のひとつである「述語項構造」の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータの開発および分析に取り組んでいる。従来、「述語項構造」の研究は文の意味理解のために活発に進められてきた。しかし、これらの研究は主に「書き言葉」のコーパスが中心であり、「話し言葉」のコーパスにおいては限定的なものしか存在していなかった。「話し言葉」特有の言語現象を分析するためには、このCEJCに述語項構造の情報を付与したコーパスを付与していく方針で作業を進めてきた。そのため、令和元年度から令和四年度にかけて、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことで、大規模な話し言葉の述語項構造コーパスを開発する予定であった。 しかし、CEJCのサンプルを分析すべく進行していくなかで、話し言葉に特有の述語項構造には、予想以上に多様な言語現象が見られること、アノテーションの負担が高いこと、既存の枠組みを超える制定が必要となることが明らかになった。また、日常会話では話者間の共通認識や省略された文脈などが重なり合い、話し言葉における実態を示す語句が省略され、曖昧さを生むことが多いと判明した。そのため、指示詞などの表現がその表現に当てはまるかどうかという「共参照」情報の重要であると判断した。そのため、共参照情報を主軸に日常会話コーパスのアノテーション情報提供を目指すこととした。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究ではCEJCに述語項アノテーションを付与しデータを公開することを目的としていた。そのため昨年度までに、話し言葉における述語項としてのアノテーションの仕様を定め、付与する予定であった。 しかし、CEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有のさまざまな言語現象があることが判明し、話し言葉などとの違いを踏まえつつ検討する必要が発生した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。また、項の省略などの現象に対応するためには、共参照なども考える必要がでてきた。 さらに、共通の枠組みとして、独自仕様を採用するよりも、よく使われているコーパスの枠組みを採用するべきか否かの検討に時間を要した。そのため、やや遅れているとした。 現在、述語項構造の基盤となりうる構文情報(係り受け)などは整備され始めているが、さらに、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者を訓練する必要があるため、データを分析する人材を確保しつつ分析を進めている。
|
Strategy for Future Research Activity |
昨年度に続いて検討していた工程の一部を回すことにする。次年度中にアノテーション作業をさらに進めることにする。話し言葉の事例を確認しながらも、述語項構造において「項」を表す「共参照」という事象にアノテーションを付与することを主軸にアノテーション作業に取り組めている。さらに、述語項のアノテーション作業者の人材確保およびアノテーション訓練を十分に行うものとして、アノテーション方針についてまとめたものを成果物および研究発表として出すことを計画している。 データの実装自体は既存のツールを用いれば実現可能だが、既存のデータは「書き言葉」を元にしている。話し言葉の現象を調査した結果、やはりある程度話し言葉に向けての拡張が必要であることが分かった。書き言葉の「述語項構造」や「共参照」の取り組みを元にしつつ、さらに、実用的なアノテーションが必要である。とくに、Universal Dependenciesというフレームワークは話し言葉のアノテーションを付与するのに国際的にも適しているため、既存研究を調査しつつデータ整備に取り組みたい。 アノテーション仕様を求めて、実際にデータを公開することを主眼とする方針にしている。いくつかのサンプル自体はCEJCの本公開により可能となった。述語項構造の基盤となりうる構文情報(係り受け)については整備されつつあるので、それの実態に合わせてアノテーションをしてもらう計画である。
|
Report
(5 results)
Research Products
(17 results)