A Quantitative Study of Linguistic Varieties Using a Large Annotated Corpus
Project/Area Number |
19K13180
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Kyushu University |
Principal Investigator |
Kaoru Ito 九州大学, 言語文化研究院, 助教 (30769394)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | Universal Dependencies / 言語変種 / コーパス / 言語資源 / ヒューマンインタフェース / 計量研究 / 自然言語処理 / 言語計量 / ジャンル / レジスター / データサイエンス |
Outline of Research at the Start |
本研究ではUniversal Dependencies (UD)と呼ばれる多言語に共通した注釈が付与されたコーパス(研究のために集積された言語データ)を用いて、様々な言語変種(社会的状況や時代などで生じる言語の差異)についての研究を行う。UDは本来自然言語処理やAIの開発目的で収集されたため、正確性よりも量が重視されており、必ずしも言語学の研究のために使いやすいデータとは言えない。しかし、その中には比較的信頼性の高い情報も含まれているため、言語変種についての研究を通じて、工学的な目的で作成されたデータを科学研究のために利用する方法について探る。
|
Outline of Final Research Achievements |
Through this research project, recommendations were made on annotating the Japanese Universal Dependencies (UD) treebanks. In addition, we improved "ChaKi.NET", a tool for processing UD treebanks on computers, and released it as "ChaKi.NET lite". This tool makes data on endangered languages more accessible to linguists who are not proficient in using language data without an interface.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究課題において作成したツールは、危機言語に関するデータ作成も活発なUniversal Dependencies (UD)プロジェクトにおいて生み出される情報へのアクセスを容易にする。UDプロジェクトは元々情報系分野のプロジェクトであり、利用者はプログラミングに精通していることが想定されている。しかし、UDツリーバンクには他の形式では公開されていない危機言語などのデータなども含まれており、本ツール開発により活用の裾野を増やし、言語学分野のデジタル・トランスフォーメーションに貢献した。
|
Report
(5 results)
Research Products
(5 results)