2020 Fiscal Year Research-status Report
アノテーション付き大規模通言語コーパスを利用した言語変種についての計量的研究
Project/Area Number |
19K13180
|
Research Institution | Kyushu University |
Principal Investigator |
伊藤 薫 九州大学, 言語文化研究院, 助教 (30769394)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | コーパス / Universal Dependencies / 言語変種 / 自然言語処理 / 言語計量 |
Outline of Annual Research Achievements |
本研究の目的はUniversal Dependencyと呼ばれるプロジェクトで作成された工学用途の多言語コーパス(言語データ)を言語学研究に応用し、言語学において使用可能なデータを拡大することである。2年目となる当該年度は、当該コーパスを利用した言語学研究の実施及びCoNLL-Uと呼ばれる形式のデータを読み込むためのインターフェイス(データ検索・閲覧用ツール)開発を目標としていた。しかし、「現在までの進捗状況」に記す通り、当該年度は新型コロナウイルス感染症流行の影響を大きく受けている。 具体的な研究実績としては、並列表現と列叙法に関する計量的研究として解析プログラムを作成し2021年度に国内雑誌へ投稿予定の論文を執筆したほか、当該研究中に発見した並列表現情報の付与方法についての課題と課題解決に向けた言語学的考察について言語処理学会第27回年次大会で発表した。当該発表は、工学用に構築されたデータの改良に向けての言語学的フィードバックという位置づけとなる。 インターフェイス開発については、研究初年度に既存のオープンソースツールに機能追加をすることで対応するのが最も費用対効果が高いという結論に達したため、当該年度は開発のために盛り込む機能の洗い出しを行っていた。また、当該ツールの主な開発元と協議を行った結果、言語学的要求とデータ構造、プログラミング上の課題の不整合が明らかになった。この結果を踏まえ、実装する機能の検討とツール開発の打ち合わせを継続することについて合意した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当該年度は新型コロナウイルス感染症の流行により大学内での研究ができない期間があり、特に高スペックかつプログラミング環境を整えたコンピュータを使用する必要がある計量的研究に支障が生じた。また、授業のオンライン化に伴う対応で教育業務が増大し、研究時間が圧迫されることとなった。加えて、同様の理由でオフラインでの学会やUniversal Dependencies関係者との会議が開催されず、当初の混乱による不開催やオンライン化に伴う効率の低下の影響があった。当初より概ね半年ほどの遅れが生じている。 研究の見通しとしては明るく、2021年度投稿予定の論文が準備できているほか、その後当該論文で使用した手法を多言語に適用することにより、Universal Dependenciesの特色を活かした研究やUniversal Dependencies開発へのフィードバックに貢献できる見通しである。
|
Strategy for Future Research Activity |
言語学的研究については特に方針の変更を要求されるものではないため、2021年度投稿予定の国内論文へのフィードバックをもとに、Universal Dependenciesの強みである通言語的な研究論文を国際誌へ投稿できるよう進めていく予定である。 インターフェイス開発については開発元との会議により機能縮小が必要になる可能性が出てきたため、言語理論とデータ処理の基礎を調査し、実装可能な機能について検討する。
|
Causes of Carryover |
新型コロナウイルス感染症の流行により、学会や会議参加、研究上の助言を得るための招聘用に計上していた旅費と謝金を支出する機会がなくなったため、多額の次年度使用額が生じた。今後はインターフェイス開発や資料収集に充てる予定である。
|
Research Products
(1 results)