2022 年度実績報告書

アノテーション付き大規模通言語コーパスを利用した言語変種についての計量的研究

研究課題

研究課題/領域番号	19K13180
研究機関	九州大学
研究代表者	伊藤薫九州大学, 言語文化研究院, 助教 (30769394)
研究期間 (年度)	2019-04-01 – 2023-03-31
キーワード	Universal Dependencies / コーパス / 言語資源 / 言語変種
研究実績の概要	本研究では、様々な自然言語に対し同じ方法で文法構造などの情報を付与（アノテーション）したUniversal Dependencies (UD)ツリーバンク（アノテーションされた文章の集合）を言語学へ応用することに取り組んだ。UDツリーバンクは工学向けに構築されたデータで、言語学の立場から見るとアノテーションの精度など信頼性に欠ける面があるが、危機言語のデータを含んでいるなど、言語学への応用可能性が期待された。最終年度には、UDツリーバンクを閲覧するためのツールを公開した。本ツールは、プログラミングに馴染みのない言語学者を主なユーザと想定して開発されており、UDツリーバンクの利用促進を目標としている。研究開始時点ではすでにChaKi.NETというツールが存在していたが、機能が豊富であるがゆえに使用方法の習得に時間がかかり、新規ユーザにとって利用しづらいものになっていた。本研究で開発した軽量版の"ChaKi.NET lite"では、UDツリーバンクのデータ検索に特化することで、直感的な操作を可能にした。Universal Dependenciesのコミュニティでは現在もデータの蓄積が進んでおり、例えば2023年には琉球語ツリーバンクの構築に関する学会発表がなされている。このような状況から、ChaKi.NET liteの開発は言語学者にとって新たな言語資源を手軽に利用する一助となると思われる。また、3年目までには日本語UDのアノテーション方法について検討し、日本語UD特有の品詞体系と元データの品詞体系の比較、並列構造のアノテーションに関する研究発表を行い、日本語UDの利点や問題点、今後の方向性について考察した。

研究成果
(2件)

すべて 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (1件)

[雑誌論文] ChaKi.NET lite の開発2023
- 著者名/発表者名
  伊藤薫・森田敏生
- 雑誌名
  
  国立国語研究所論集
  
  巻: 25 ページ: －
- 査読あり / オープンアクセス
[学会発表] ChaKi.NET liteの開発 Universal Dependenciesコーパスの利用を見据えた ChaKi.NETユーザインターフェイスの改良2022
- 著者名/発表者名
  伊藤薫・森田敏生
- 学会等名
  Evidence-based Linguistics Workshop 2022