研究課題/領域番号 |
19K13180
|
研究種目 |
若手研究
|
配分区分 | 基金 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 九州大学 |
研究代表者 |
伊藤 薫 九州大学, 言語文化研究院, 助教 (30769394)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | Universal Dependencies / 言語変種 / コーパス / 言語資源 / ヒューマンインタフェース / 計量研究 / 自然言語処理 / 言語計量 / ジャンル / レジスター / データサイエンス |
研究開始時の研究の概要 |
本研究ではUniversal Dependencies (UD)と呼ばれる多言語に共通した注釈が付与されたコーパス(研究のために集積された言語データ)を用いて、様々な言語変種(社会的状況や時代などで生じる言語の差異)についての研究を行う。UDは本来自然言語処理やAIの開発目的で収集されたため、正確性よりも量が重視されており、必ずしも言語学の研究のために使いやすいデータとは言えない。しかし、その中には比較的信頼性の高い情報も含まれているため、言語変種についての研究を通じて、工学的な目的で作成されたデータを科学研究のために利用する方法について探る。
|
研究成果の概要 |
本研究課題の成果として、日本語Universal Dependencies (UD)ツリーバンクのアノテーション(情報付与)に関する考察や提言を行った。加えて、UDツリーバンクをコンピュータ上で読み込むためのツールであるChaKi.NETを改良し、ChaKi.NET liteとして公開した。ツールの改良により、インターフェイスを備えていない言語データの使用に習熟していない言語学者にとっても危機言語のデータを容易にアクセスできるようにした。
|
研究成果の学術的意義や社会的意義 |
本研究課題において作成したツールは、危機言語に関するデータ作成も活発なUniversal Dependencies (UD)プロジェクトにおいて生み出される情報へのアクセスを容易にする。UDプロジェクトは元々情報系分野のプロジェクトであり、利用者はプログラミングに精通していることが想定されている。しかし、UDツリーバンクには他の形式では公開されていない危機言語などのデータなども含まれており、本ツール開発により活用の裾野を増やし、言語学分野のデジタル・トランスフォーメーションに貢献した。
|