深層学習による言語生成の評価データセットの構築と品質推定

研究課題

研究課題/領域番号	23K24907
補助金の研究課題番号	22H03651 (2022-2023)
研究種目	基盤研究(B)
配分区分	基金 (2024) 補助金 (2022-2023)
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	一橋大学 (2023-2024) 東京都立大学 (2022)
研究代表者	小町守一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)
研究分担者	須藤克仁奈良女子大学, 生活環境科学系, 教授 (00396152) 三田雅人東京都立大学, システムデザイン研究科, 特任助教 (30966453) 梶原智之愛媛大学, 理工学研究科(工学系), 講師 (70824960) 岡照晃東京都立大学, システムデザイン研究科, 特任助教 (50782942)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円) 2024年度: 5,720千円 (直接経費: 4,400千円、間接経費: 1,320千円) 2023年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2022年度: 7,020千円 (直接経費: 5,400千円、間接経費: 1,620千円)
キーワード	自然言語処理 / 品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化 / 深層学習
研究開始時の研究の概要	大規模なテキストコーパスを用いて事前学習された大規模言語モデルを用いると、流暢なテキストを生成することができます。しかし、言語モデルやテキストの自動評価はまだ難しく、解釈性も高くありません。そこで本研究では、評価したい言語現象に対応する最小限の事例をチェックリスト形式で列挙したデータセットを作成し、解釈性の高い評価を行うことを提案します。
研究実績の概要	本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的としています。本提案では3年間の研究期間を通じて、文法誤り訂正・機械翻訳・テキスト平易化という3つの言語生成タスクに焦点を当て、それぞれのタスクできめ細かい評価が可能なデータセットの構築と、それを用いた言語生成の自動評価手法の開発に取り組みます。これらの研究によって、それぞれのタスクで継続的にシステムの性能評価を行うことが可能となります。研究期間の2年目である2023年度は一橋大・都立大グループでは文法誤り訂正に関する網羅性の高いデータセットの構築に継続して取り組みました。2022年度の予備実験の結果を受け、データセットの仕様を決めて言語データの作成の発注を行いました。また、言語モデルの性能を評価するミニマルペアデータセットに関し、サブワード分割の長さによる評価バイアスが存在することを明らかにする研究に取り組み、国際会議 (LREC-COLING 2024) に投稿して採択されました。NAIST グループでは単語単位で翻訳の品質評価が可能なように MQM (Multidimensional Quality Metrics) に基づいて品質評価を付与する研究を継続しました。愛媛大グループではテキスト平易化の品質推定の研究に継続して取り組み、擬似データを用いて品質推定の性能を向上させる手法の提案を行い、国際会議 (LREC-COLING 2024) に投稿して採択されました。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由 2022年度から継続して3つのタスクで品質推定のデータセット構築や推定手法の提案に取り組んできて、査読つき国際会議での研究成果の採択も進んでいるため、順調に進展しています。
今後の研究の推進方策	2024年度は文法誤りの評価データセットの構築については、都立大を中心として研究を継続し、2023年度に引き続いて同じデータ作成者に協力を仰ぎ、データセットの多様性と規模の拡張を行い、CEFR-J の文法項目のカバー率を向上させて国際論文誌への投稿を目指します。機械翻訳の品質推定の研究については、分担者の2024年度の所属変更に伴い奈良女子大に研究の中心を移し、国際会議への投稿を目指します。実験環境等は奈良先端大の設備が使えるように手続き済みです。テキスト平易化については、2024年度の前半に国際会議 (LREC-COLING 2024、イタリア開催) で発表を行うとともに、引き続き研究を発展させます。様々な分野でのテキスト平易化のデータセット構築に取り組む計画です。

報告書

(2件)

2023 実績報告書
2022 実績報告書

研究成果
(8件)

すべて 2024 2023 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (7件) (うち国際学会 3件)

[雑誌論文] 日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築2023
- 著者名/発表者名
  小山碧海, 喜友名朝視顕, 小林賢治, 新井美桜, 三田雅人, 岡照晃, 小町守
- 雑誌名
  
  自然言語処理
  
  巻: 30
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] テキスト平易化の品質推定のための擬似訓練2024
- 著者名/発表者名
  廣中勇希, 梶原智之, 二宮崇
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] Transfer Fine-tuning for Quality Estimation of Text Simplification2024
- 著者名/発表者名
  Yuki Hironaka, Tomoyuki Kajiwara, Takashi Ninomiya
- 学会等名
  The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Token-length Bias in Minimal-pair Paradigm Datasets2024
- 著者名/発表者名
  Naoya Ueda, Masato Mita, Teruaki Oka, Mamoru Komachi
- 学会等名
  The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
- 関連する報告書
  2023 実績報告書
- 国際学会
[学会発表] Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善2024
- 著者名/発表者名
  上田直生也, 三田雅人, 小町守
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction2022
- 著者名/発表者名
  Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
- 学会等名
  13th Edition of Language Resources and Evaluation Conference (LREC 2022)
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction2022
- 著者名/発表者名
  Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
- 学会等名
  13th Edition of Language Resources and Evaluation Conference (LREC 2022)
- 関連する報告書
  2022 実績報告書
[学会発表] 日本語文法誤り訂正コーパスへの誤用タグ付け2022
- 著者名/発表者名
  小山碧海, 喜友名朝視顕, 三田雅人, 岡照晃, 小町守
- 学会等名
  情報処理学会研究報告自然言語処理
- 関連する報告書
  2022 実績報告書

深層学習による言語生成の評価データセットの構築と品質推定

研究代表者

小町 守 一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)

17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築2023

著者名/発表者名

雑誌名

関連する報告書

[学会発表] テキスト平易化の品質推定のための擬似訓練2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Transfer Fine-tuning for Quality Estimation of Text Simplification2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Token-length Bias in Minimal-pair Paradigm Datasets2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語文法誤り訂正コーパスへの誤用タグ付け2022

著者名/発表者名

学会等名

関連する報告書

小町守一橋大学, 大学院ソーシャル・データサイエンス研究科, 教授 (60581329)