• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Annual Research Report

Construction of an Evaluation Dataset and Quality Estimation for Neural Language Generation

Research Project

Project/Area Number 22H03651
Allocation TypeSingle-year Grants
Research InstitutionTokyo Metropolitan University

Principal Investigator

小町 守  東京都立大学, システムデザイン研究科, 教授 (60581329)

Co-Investigator(Kenkyū-buntansha) 須藤 克仁  奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
梶原 智之  愛媛大学, 理工学研究科(工学系), 助教 (70824960)
岡 照晃  東京都立大学, システムデザイン研究科, 特任助教 (50782942)
三田 雅人  東京都立大学, システムデザイン研究科, 特任助教 (30966453)
Project Period (FY) 2022-04-01 – 2025-03-31
Keywords品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化
Outline of Annual Research Achievements

本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的とします。作成されたテストデータそれぞれは言語モデルの単体テストのためのデータとして用いることができ、継続的インテグレーションを行う際の回帰テストに組み込むことができるようになります。本研究では、サブタスクごとのデータセットの収集・作成とともに、それを用いて自動評価を行う手法の提案を行います。

本研究では、言語生成タスクのうち正例と負例を作成しやすい文法誤り訂正と機械翻訳を対象として、それぞれに対して評価用のデータセットおよびそれを用いた評価手法を提案します。文法誤り訂正は文法項目として習得すべき項目を列挙することが可能であり、それらの項目を正しく訂正できているか、という網羅的なチェックリストを作成することが可能です。また、機械翻訳では代表的な評価尺度(MQM, direct assessment 等)が存在するので、それらよりもきめ細かく機械翻訳を評価できる手法を提案します。

2022年度は文法誤り訂正について網羅性の高いデータセットを作成する予備実験を行い、利点と欠点、限界について考察しました。機械翻訳では、MQM を用いた単語単位の品質推定の可能性について実験および考察を行いました。また、テキスト平易化の品質推定に向けたデータセットの拡充と、それを用いた品質推定手法の研究を行いました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

当初計画していた文法誤り訂正と機械翻訳については順調にデータセット作成や品質推定手法の検討が進んでいるだけでなく、テキスト平易化タスクについてもデータセット作成や品質推定手法の検討が進んでいるため、順調に進展しています。

Strategy for Future Research Activity

文法誤り訂正の評価データセットの構築については、本年度は実際にデータセットの構築に着手し、国際会議への投稿を目指します。機械翻訳の品質推定については、単語単位での評価と文単位での評価の統合について検討します。テキスト平易化については、大規模言語モデル等の外部を活用した品質推定手法について引き続き実験を行います。

  • Research Products

    (4 results)

All 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] 日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築2023

    • Author(s)
      小山碧海, 喜友名朝視顕, 小林賢治, 新井美桜, 三田雅人, 岡照晃, 小町守
    • Journal Title

      自然言語処理

      Volume: 30 Pages: -

    • Peer Reviewed / Open Access
  • [Presentation] Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction2022

    • Author(s)
      Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
    • Organizer
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
    • Int'l Joint Research
  • [Presentation] ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction2022

    • Author(s)
      Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
    • Organizer
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
  • [Presentation] 日本語文法誤り訂正コーパスへの誤用タグ付け2022

    • Author(s)
      小山碧海, 喜友名朝視顕, 三田雅人, 岡照晃, 小町守
    • Organizer
      情報処理学会研究報告自然言語処理

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi