本研究では、様々な自然言語に対し同じ方法で文法構造などの情報を付与(アノテーション)したUniversal Dependencies (UD)ツリーバンク(アノテーションされた文章の集合)を言語学へ応用することに取り組んだ。UDツリーバンクは工学向けに構築されたデータで、言語学の立場から見るとアノテーションの精度など信頼性に欠ける面があるが、危機言語のデータを含んでいるなど、言語学への応用可能性が期待された。 最終年度には、UDツリーバンクを閲覧するためのツールを公開した。本ツールは、プログラミングに馴染みのない言語学者を主なユーザと想定して開発されており、UDツリーバンクの利用促進を目標としている。研究開始時点ではすでにChaKi.NETというツールが存在していたが、機能が豊富であるがゆえに使用方法の習得に時間がかかり、新規ユーザにとって利用しづらいものになっていた。本研究で開発した軽量版の"ChaKi.NET lite"では、UDツリーバンクのデータ検索に特化することで、直感的な操作を可能にした。Universal Dependenciesのコミュニティでは現在もデータの蓄積が進んでおり、例えば2023年には琉球語ツリーバンクの構築に関する学会発表がなされている。このような状況から、ChaKi.NET liteの開発は言語学者にとって新たな言語資源を手軽に利用する一助となると思われる。 また、3年目までには日本語UDのアノテーション方法について検討し、日本語UD特有の品詞体系と元データの品詞体系の比較、並列構造のアノテーションに関する研究発表を行い、日本語UDの利点や問題点、今後の方向性について考察した。
|