2021 Fiscal Year Research-status Report
アノテーション付き大規模通言語コーパスを利用した言語変種についての計量的研究
Project/Area Number |
19K13180
|
Research Institution | Kyushu University |
Principal Investigator |
伊藤 薫 九州大学, 言語文化研究院, 助教 (30769394)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | コーパス / ヒューマンインタフェース / 言語資源 / 計量研究 |
Outline of Annual Research Achievements |
本研究は、工学向けに作られたUniversal Dependencies (UD)コーパスと呼ばれる様々な情報が施された大規模な言語データを言語学研究に応用することを目標としている。当該年度は主にUDコーパス閲覧用のインタフェースツール開発および、言語表現の分布に関する計量的研究を実施した。 前者のコーパス閲覧用インタフェースツールとは、人間が利用しやすいようにコーパスデータを可視化したり検索したりするツールのことであるが、今年度は当該ツールの基礎部分に関する開発を行った。開発目標は元々存在するオープンソースのツールを改良することで、プログラミングの知識はないがコーパスを利用する機会の多い言語学者がUDのデータを閲覧できるようにすることとしている。当該年度は、元ツールに詳しい研究者やプログラミングに馴染みのない言語学者の協力を得ながら、どのような点が利用に当たっての障害になっているかを協議し、取りまとめた結果を参考に新ツールの基盤部分の開発を実施した。ツールが完成すればUDコーパス利用者の裾野が大幅に広がることとなり、当該年度の研究ではその基礎部分を構築することができた。 もう一方の言語表現の分布に関する計量的研究は、UDコーパスの言語学向け応用として取り組んでいる。具体的にはUDコーパスを用いて並列表現の要素数の分布に関する通言語的な分析に取り組んだ。並列表現は自然言語の文法の中でも特異的な地位を占め、理論上は無限に要素をつなげて大きくすることができる。このような性質を持つ並列表現の分布を多数の言語で比較することにより、自然言語における普遍性の一端の解明に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コーパスインタフェース開発の進捗は順調であり、各方面からのフィードバックも得ながら開発を進めている。来年度半ばには利用可能なプログラムを研究者一般向けに公開できる予定である。 もう一方のUDコーパスを言語学に応用する課題については興味深い示唆が得られたものの、分析の結果得られた分布に対する知見の蓄積が乏しく、論文にまとめられるほどの論拠が得られていない状態である。
|
Strategy for Future Research Activity |
インターフェイス開発は順調に進んでおり、完成まで現在の方針を継続する。言語学への応用に関しては、量的分析に基づく論文をまとめることが現時点では困難であるため、クリティカルな用例をもとにした質的研究に切り替えることも視野に入れる。
|
Causes of Carryover |
当該年度・次年度ともにコーパスインターフェイス開発に関する支出が予算使用の大半を占める予定だが、開発の進捗状況に鑑み「次年度使用額」が発生することとなった。翌年度は予算の大半を当該ツール開発に使用する予定である。
|