2019 Fiscal Year Research-status Report
Development of a multi-purpose categorial grammar treebank
Project/Area Number |
18K00523
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
窪田 悠介 大学共同利用機関法人人間文化研究機構国立国語研究所, 理論・対照研究領域, 准教授 (60745149)
|
Co-Investigator(Kenkyū-buntansha) |
峯島 宏次 お茶の水女子大学, 文理融合 AI・データサイエンスセンター, 特任准教授 (80725739)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 範疇文法 / ツリーバンク / アノテーション / ハイブリッド範疇文法 / CCG / NPCMJ |
Outline of Annual Research Achievements |
本研究では、理論言語学と自然言語処理の両分野での研究資源として活用できる、汎用的な範疇文法のツリーバンクを構築する。範疇文法は、深い解析を用いた意味解析を行うための基盤として、意味処理に関する研究が本格化しつつある自然言語処理研究において現在注目を集めている言語理論である。また、理論言語学研究においても、ツリーバンクやパーザーなどを心理言語学的モデリングのためのリソースとして用いる、経験科学としての新たな手法に注目が集まっており、数学的に厳密な基盤を持つ言語理論である範疇文法の、言語理論としての側面に特に注目が高まっている。このため、言語学的な知見を正確に反映したツリーバンクを構築することにより、自然言語処理研究と理論言語学研究を結びつけた新たな学際的研究領域における研究を飛躍的に促進することができると考えられる。
本年度は、昨年度開始した文末表現 (複雑述語や文末のモダリティ表現など)の扱いの精緻化の作業を完了し、構築したデータを用いてパーザの学習を行い、構築したツリーバンクの言語学的妥当性の確認を行った。文末表現の適切な扱いは、既存の範疇文法ツリーバンクである日本語CCGBankとの主な相違点であり、パージングにより言語学的により妥当な文の論理表示を生成するために、ツリーバンクで正しいアノテーションがなされていることが重要である。この点の作り込みが今年度でほぼ完了した。また、ゼロ代名詞やscramblingなど、日本語特有の現象の扱いを言語学的により妥当なものにする作業も開始した。さらに、現在までの研究の進捗を論文にまとめ、言語資源の国際学会LREC 2020に投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度より始めた、アノテータ二名による作業が順調に進んでいる。既存の関連言語資源との比較の上で重要な、文末表現の分析の精緻化の作業が完了し、これを報告する論文を国際学会に投稿することができたので、順調に進んでいると判断できる。
|
Strategy for Future Research Activity |
来年度は、本年度の成果に基づき、引き続き、自動変換したツリーバンクの修正を進める。具体的には、ゼロ代名詞やscramblingなど、日本語特有の現象の扱いに関して包括的な修正を進める。また、今年度試験的に行った、パーザーの学習データとしてツリーバンクを用いる研究に基づき、学習したパーザーを用いて文の論理意味表示を導出することでツリーバンクの妥当性を客観的に検証する、より高度な検証作業にも来年度の後半に取り組む予定である。
|
Causes of Carryover |
初年度の繰越額が大きかったため、今年度これをアノテータ謝金に回すことで作業を効率的に進めることが出来たが、すべて使い切らず一部次年度使用額と して残った。来年度は最終年度であり、成果を国際学会や国内の学会で報告する予定である。次年度使用額は学会発表の旅費にあてることを計画している。
|