2019 Fiscal Year Research-status Report
日常対話コーパスにおける述語項構造アノテーションの作成と分析
Project/Area Number |
19K13195
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
大村 舞 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (20803563)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | コーパス / 言語学 / 話し言葉 / 述語項構造 / アノテーション |
Outline of Annual Research Achievements |
本研究では、近年公開された大規模日常会話コーパス『日本語日常会話コーパス(Corpus of Everyday Japanese Conversation, CEJC)』に、語の意味表現のひとつである「述語項構造」の情報を付与した『「話し言葉」の述語項構造コーパス』のアノテーションデータを開発及び分析に取り組んでいる。従来、文の意味理解のために「述語項構造」の研究が活発に進められてきたが、これらの研究は主に「書き言葉」が主眼であった。「話し言葉」特有の言語現象を分析するために、このCEJCに述語項構造の情報を付与したコーパスを付与する方針で作業を進めてきた。 現在、話し言葉に特化した述語項構造解析ソフトウェア及び、話し言葉用の述語項構造データは公開されていない。そのため初年度である平成31年度の間に、話し言葉における述語項としてのアノテーションの仕様を定め、ベースとなる述語項構造解析ソフトウェアの開発に取り組むことにより大規模な話し言葉の述語項構造コーパスを開発する予定であった。 しかしCEJCを分析していくにつれ、話し言葉における述語項構造には想定以上に話し言葉特有の様々な言語現象があることが判明し、既存の枠組みの範疇を超えた枠組みの制定が必要であることが判明した。その結果、具体的にCEJCにアノテーションの仕様を定めるにはテキストについてアノテーションを付与するだけではなく、ビデオ操作をしながらも述語項のアノテーション作業をしてもらう必要がある。そのため、アノテーション仕様を適切に定めた上で、一定時間をかけて作業者の訓練が必要であることがわかった。しかし、そのアノテーション付与者の人材確保が間に合わず、完了している作業としては、CEJCの話し言葉会話データについての分析段階にとどまっている。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
前述の通り、当初想定していたよりも、話し言葉における述語項についてさらなる検討事項があることがわかったこと、その影響により、基礎と考えていた述語鋼構造自動アノテーション付与ソフトの開発が進まず、また小規模データのアノテーション付与作業が遅れたことにより、作業が前倒しになっている。 また話し言葉における述語項構造のアノテーションを付与できる人材確保が困難であったため、アノテーションを付与する作業者を割り当てることができずに、全体として作業が遅れていると判断した。
|
Strategy for Future Research Activity |
2019年度において検討していた工程を今年度に回し、2020年度は、話し言葉における述語項についてアノテーション方針を適切に定めることに注力する。さらに、述語項のアノテーション作業者の人材確保及びアノテーション訓練を十分に行うものとして、アノテーション方針についてまとめたものを成果物として出すことを検討している。
|
Causes of Carryover |
旅費として学会発表のための予算を確保していたが、今年度は発表を予定していた学会がオンライン決行となったことから旅費が不要となった。 また当初考えていた人材の確保が困難であったため、人材費を使うことができていない。 次年度使用額に関しては、最新の研究動向をリサーチするための書籍代や、述語項構造アノテーションを付与する人材への人件費や機材費用、アノテーションの打ち合わせなどの旅費に用いることを検討している。
|