• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction of Evaluation Datasets and Quality Estimation for Natural Language Generation using Deep Learning

Research Project

Project/Area Number 23K24907
Project/Area Number (Other) 22H03651 (2022-2023)
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeMulti-year Fund (2024)
Single-year Grants (2022-2023)
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionHitotsubashi University (2023-2024)
Tokyo Metropolitan University (2022)

Principal Investigator

小町 守  一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)

Co-Investigator(Kenkyū-buntansha) 須藤 克仁  奈良女子大学, 生活環境科学系, 教授 (00396152)
三田 雅人  東京都立大学, システムデザイン研究科, 特任助教 (30966453)
梶原 智之  愛媛大学, 理工学研究科(工学系), 講師 (70824960)
岡 照晃  東京都立大学, システムデザイン研究科, 特任助教 (50782942)
Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2024)
Budget Amount *help
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2024: ¥5,720,000 (Direct Cost: ¥4,400,000、Indirect Cost: ¥1,320,000)
Fiscal Year 2023: ¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2022: ¥7,020,000 (Direct Cost: ¥5,400,000、Indirect Cost: ¥1,620,000)
Keywords自然言語処理 / 品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化 / 深層学習
Outline of Research at the Start

大規模なテキストコーパスを用いて事前学習された大規模言語モデルを用いると、流暢なテキストを生成することができます。しかし、言語モデルやテキストの自動評価はまだ難しく、解釈性も高くありません。そこで本研究では、評価したい言語現象に対応する最小限の事例をチェックリスト形式で列挙したデータセットを作成し、解釈性の高い評価を行うことを提案します。

Outline of Annual Research Achievements

本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的としています。本提案では3年間の研究期間を通じて、文法誤り訂正・機械翻訳・テキスト平易化という3つの言語生成タスクに焦点を当て、それぞれのタスクできめ細かい評価が可能なデータセットの構築と、それを用いた言語生成の自動評価手法の開発に取り組みます。これらの研究によって、それぞれのタスクで継続的にシステムの性能評価を行うことが可能となります。

研究期間の2年目である2023年度は一橋大・都立大グループでは文法誤り訂正に関する網羅性の高いデータセットの構築に継続して取り組みました。2022年度の予備実験の結果を受け、データセットの仕様を決めて言語データの作成の発注を行いました。また、言語モデルの性能を評価するミニマルペアデータセットに関し、サブワード分割の長さによる評価バイアスが存在することを明らかにする研究に取り組み、国際会議 (LREC-COLING 2024) に投稿して採択されました。NAIST グループでは単語単位で翻訳の品質評価が可能なように MQM (Multidimensional Quality Metrics) に基づいて品質評価を付与する研究を継続しました。愛媛大グループではテキスト平易化の品質推定の研究に継続して取り組み、擬似データを用いて品質推定の性能を向上させる手法の提案を行い、国際会議 (LREC-COLING 2024) に投稿して採択されました。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2022年度から継続して3つのタスクで品質推定のデータセット構築や推定手法の提案に取り組んできて、査読つき国際会議での研究成果の採択も進んでいるため、順調に進展しています。

Strategy for Future Research Activity

2024年度は文法誤りの評価データセットの構築については、都立大を中心として研究を継続し、2023年度に引き続いて同じデータ作成者に協力を仰ぎ、データセットの多様性と規模の拡張を行い、CEFR-J の文法項目のカバー率を向上させて国際論文誌への投稿を目指します。
機械翻訳の品質推定の研究については、分担者の2024年度の所属変更に伴い奈良女子大に研究の中心を移し、国際会議への投稿を目指します。実験環境等は奈良先端大の設備が使えるように手続き済みです。
テキスト平易化については、2024年度の前半に国際会議 (LREC-COLING 2024、イタリア開催) で発表を行うとともに、引き続き研究を発展させます。様々な分野でのテキスト平易化のデータセット構築に取り組む計画です。

Report

(2 results)
  • 2023 Annual Research Report
  • 2022 Annual Research Report
  • Research Products

    (8 results)

All 2024 2023 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (7 results) (of which Int'l Joint Research: 3 results)

  • [Journal Article] 日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築2023

    • Author(s)
      小山碧海, 喜友名朝視顕, 小林賢治, 新井美桜, 三田雅人, 岡照晃, 小町守
    • Journal Title

      自然言語処理

      Volume: 30

    • Related Report
      2022 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] テキスト平易化の品質推定のための擬似訓練2024

    • Author(s)
      廣中勇希, 梶原智之, 二宮崇
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Transfer Fine-tuning for Quality Estimation of Text Simplification2024

    • Author(s)
      Yuki Hironaka, Tomoyuki Kajiwara, Takashi Ninomiya
    • Organizer
      The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Token-length Bias in Minimal-pair Paradigm Datasets2024

    • Author(s)
      Naoya Ueda, Masato Mita, Teruaki Oka, Mamoru Komachi
    • Organizer
      The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善2024

    • Author(s)
      上田直生也, 三田雅人, 小町守
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Annual Research Report
  • [Presentation] Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction2022

    • Author(s)
      Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
    • Organizer
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
    • Related Report
      2022 Annual Research Report
    • Int'l Joint Research
  • [Presentation] ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction2022

    • Author(s)
      Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
    • Organizer
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
    • Related Report
      2022 Annual Research Report
  • [Presentation] 日本語文法誤り訂正コーパスへの誤用タグ付け2022

    • Author(s)
      小山碧海, 喜友名朝視顕, 三田雅人, 岡照晃, 小町守
    • Organizer
      情報処理学会研究報告自然言語処理
    • Related Report
      2022 Annual Research Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi