2019 Fiscal Year Research-status Report
アノテーション付き大規模通言語コーパスを利用した言語変種についての計量的研究
Project/Area Number |
19K13180
|
Research Institution | Kyushu University |
Principal Investigator |
伊藤 薫 九州大学, 言語文化研究院, 助教 (30769394)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | コーパス / 言語変種 / ジャンル / レジスター / データサイエンス / Universal Dependencies |
Outline of Annual Research Achievements |
本研究では、近年急速に蓄積が進んでいる工学向けの言語データを如何に言語学へ応用するかというテーマのもと、Universal Dependenciesと呼ばれる自然言語処理のプロジェクトで作成されたコーパス(言語データを集めたもの)を利用して言語変種(言語の使用目的、話者などによる個別言語内の変異)間の差異や特徴を明らかにしようとしている。 当該年度は、まずUniversal Dependenciesコーパスの詳細についての言語学的観点からの調査、及び、言語変種についての先行研究を調査することを目標とし、その成果を言語学と自然言語処理の専門家向けに研究発表として還元した。 具体的には、国立国語研究所で行われた言語資源ワークショップ(LRW2019)でUniversal Dependenciesの枠組みについて言語学的な側面からその特徴と活用可能な言語学の下位領域について紹介した。当該ワークショップの発表者は報告者を除き全て自然言語処理の専門家であったが、言語学を専門とする報告者が発表を行うことで言語学者にもUniversal Dependenciesの利用可能性を周知できたと思われる。 また、言語変種との関連については言語処理学会第26回年次大会 (NLP2020)にて発表を行った。本発表では、Universal Dependenciesが独自の品詞体系を用いていることに着目し、既存の品詞体系を用いる場合に比べどのように文書の分布が変化するかを調査した。その結果、手法も単純であり分布に多少の差異はあるものの、独自の品詞体系でも文書のジャンルと品詞の分布「樺島の法則」が成り立っていることを示し、ジャンル研究におけるUniversal Dependenciesコーパス活用について明るい見通しを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画において、2019年度は同一言語内での言語変種比較および、Universal Dependenciesで規定される規則について言語内で妥当性を検証することを目標としていたが、所属機関から異動したことにより研究環境が変化し、自然言語処理関係の支援が当初よりも受けにくくなった。そのため、今年度の研究はデータから比較的容易に抽出可能な品詞関連の特徴を利用した言語変種比較と妥当性検証に研究対象を絞ることにした。これに伴い、2020年度以降に予定していた同一言語変種の言語間比較を前倒しして、同じく品詞との関連について調査した。 その一方で、当初2020年度以降に予定されていたツール開発は大幅に進展した。これには国際プロジェクトであるUniversal Dependenciesに関して日本語のデータを構築しているグループとの協力体制が整ったことが大きく寄与しており、申請者がジャンル・レジスター研究に必要だと考えている機能を、既存のツールに組み込むことで実現できる見通しが立った。 以上のことを総合的に考慮すると、当初今年度に予定していた研究については一部遅れが見られるものの、来年度以降の課題を一部前倒しで実施できていることに加え、ツール開発については独自開発する場合よりもかなり見通しが明るくなったことから、本研究課題の進捗は順調であると判断した。
|
Strategy for Future Research Activity |
【現在までの進捗状況】で述べた通り、ツール開発については当初の予定と比較して少ないエフォートで実現可能な見通しであるため、今後はその余剰エフォートをUniversal Dependenciesの枠組みに関する言語学的妥当性の検証及び、言語変種に関する研究へ割り当てる方針である。 言語変種の比較については、2019年度の研究で実際にデータを利用した結果、大規模なコーパス(言語データ)に関して言語間比較をする場合はジャンル・レジスターの分類やデータサイズが揃っていないことが障壁となることが明らかになった。したがって、今後はそのようなデータでも十分に調査可能な特徴や、データの差異を克服できるような統計手法について調査したい。これを実現するため、2020年度はジャンル・レジスター研究や文体、統計の先行研究調査とその応用を重視する予定である。
|
Causes of Carryover |
当該年度の余剰は、新型コロナウイルス感染症の影響により年度末に予定されていた学会が中止され、そのために確保しておいた旅費が支出されなかったために生じた。次年度の使用については社会的距離戦略が緩和されれば学会等研究者同士の交流に充てたいが、流行の動向を見極めつつ書籍の購入に使用するなど柔軟な対応を取りたい。
|
Research Products
(2 results)