2023 Fiscal Year Research-status Report
日常対話コーパスにおける述語項構造アノテーションの作成と分析
Project/Area Number |
19K13195
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
大村 舞 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, プロジェクト非常勤研究員 (20803563)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Keywords | コーパス / 話し言葉 / Universal Dependencies / 述語項構造 / 共参照 |
Outline of Annual Research Achievements |
本研究では、2022年に本公開された大規模日常会話コーパス『日本語日常会話コーパス(Corpus of Everyday Japanese Conversation, CEJC)』に、文の意味表現のひとつである「述語項構造」の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータの開発および分析に取り組んでいる。従来、「述語項構造」の研究は文の意味理解のために活発に進められてきた。しかし、これらの研究は主に「書き言葉」のコーパスが中心であり、「話し言葉」のコーパスにおいては限定的なものしか存在していなかった。「話し言葉」特有の言語現象を分析するためには、このCEJCに述語項構造の情報を付与したコーパスを付与していく方針で作業を進めてきた。そのため、令和元年度から令和四年度にかけて、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことで、大規模な話し言葉の述語項構造コーパスを開発する予定であった。 しかし、CEJCのサンプルを分析すべく進行していくなかで、話し言葉に特有の述語項構造には、予想以上に多様な言語現象が見られること、アノテーションの負担が高いこと、既存の枠組みを超える制定が必要となることが明らかになった。また、日常会話では話者間の共通認識や省略された文脈などが重なり合い、話し言葉における実態を示す語句が省略され、曖昧さを生むことが多いと判明した。そのため、指示詞などの表現がその表現に当てはまるかどうかという「共参照」情報の重要であると判断した。そのため、共参照情報を主軸に日常会話コーパスのアノテーション情報提供を目指すこととした。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究ではCEJCに述語項アノテーションを付与しデータを公開することを目的としていた。そのため昨年度までに、話し言葉における述語項としてのアノテーションの仕様を定め、付与する予定であった。 しかし、CEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有のさまざまな言語現象があることが判明し、話し言葉などとの違いを踏まえつつ検討する必要が発生した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。また、項の省略などの現象に対応するためには、共参照なども考える必要がでてきた。 さらに、共通の枠組みとして、独自仕様を採用するよりも、よく使われているコーパスの枠組みを採用するべきか否かの検討に時間を要した。そのため、やや遅れているとした。 現在、述語項構造の基盤となりうる構文情報(係り受け)などは整備され始めているが、さらに、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者を訓練する必要があるため、データを分析する人材を確保しつつ分析を進めている。
|
Strategy for Future Research Activity |
昨年度に続いて検討していた工程の一部を回すことにする。次年度中にアノテーション作業をさらに進めることにする。話し言葉の事例を確認しながらも、述語項構造において「項」を表す「共参照」という事象にアノテーションを付与することを主軸にアノテーション作業に取り組めている。さらに、述語項のアノテーション作業者の人材確保およびアノテーション訓練を十分に行うものとして、アノテーション方針についてまとめたものを成果物および研究発表として出すことを計画している。 データの実装自体は既存のツールを用いれば実現可能だが、既存のデータは「書き言葉」を元にしている。話し言葉の現象を調査した結果、やはりある程度話し言葉に向けての拡張が必要であることが分かった。書き言葉の「述語項構造」や「共参照」の取り組みを元にしつつ、さらに、実用的なアノテーションが必要である。とくに、Universal Dependenciesというフレームワークは話し言葉のアノテーションを付与するのに国際的にも適しているため、既存研究を調査しつつデータ整備に取り組みたい。 アノテーション仕様を求めて、実際にデータを公開することを主眼とする方針にしている。いくつかのサンプル自体はCEJCの本公開により可能となった。述語項構造の基盤となりうる構文情報(係り受け)については整備されつつあるので、それの実態に合わせてアノテーションをしてもらう計画である。
|
Causes of Carryover |
いくらか旅費として学会発表のための予算を確保していたが、一件論文が採用されなかったため、想定より使う金額が減っている。最新の研究に合わせて機材は購入したものの、人材に割り当てることができなかったため、残額が発生している。また当初アノテーション付与作業要員として考えていた人材の確保ができなかったため、人材費を使うことができていない。次年度も引き続き使用額に関しては、主に最新の研究動向をリサーチするための書籍代や、述語項構造アノテーションを付与する人材への人件費や、機材費用、アノテーションの打ち合わせなどの旅費に用いることを検討している。現在ツールなどを使用するためには毎年アップデートされ続けている深層学習などにも対応しなくてはならず、最新の機材の確保も必要である。オンラインでスムーズにやりとりをするための機材確保も必要と考えている。対外発表のため、さらに規制も緩和されているため、とくに旅費が多く必要と考えている。
|
Research Products
(7 results)