• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実績報告書

深層学習による言語生成の評価データセットの構築と品質推定

研究課題

研究課題/領域番号 22H03651
配分区分補助金
研究機関東京都立大学

研究代表者

小町 守  東京都立大学, システムデザイン研究科, 教授 (60581329)

研究分担者 須藤 克仁  奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
梶原 智之  愛媛大学, 理工学研究科(工学系), 助教 (70824960)
岡 照晃  東京都立大学, システムデザイン研究科, 特任助教 (50782942)
三田 雅人  東京都立大学, システムデザイン研究科, 特任助教 (30966453)
研究期間 (年度) 2022-04-01 – 2025-03-31
キーワード品質推定 / 言語生成 / 評価 / 文法誤り訂正 / 機械翻訳 / テキスト平易化
研究実績の概要

本研究では、言語生成の評価のためのデータセットを作成し、解釈性の高い自動評価手法を提案することを目的とします。作成されたテストデータそれぞれは言語モデルの単体テストのためのデータとして用いることができ、継続的インテグレーションを行う際の回帰テストに組み込むことができるようになります。本研究では、サブタスクごとのデータセットの収集・作成とともに、それを用いて自動評価を行う手法の提案を行います。

本研究では、言語生成タスクのうち正例と負例を作成しやすい文法誤り訂正と機械翻訳を対象として、それぞれに対して評価用のデータセットおよびそれを用いた評価手法を提案します。文法誤り訂正は文法項目として習得すべき項目を列挙することが可能であり、それらの項目を正しく訂正できているか、という網羅的なチェックリストを作成することが可能です。また、機械翻訳では代表的な評価尺度(MQM, direct assessment 等)が存在するので、それらよりもきめ細かく機械翻訳を評価できる手法を提案します。

2022年度は文法誤り訂正について網羅性の高いデータセットを作成する予備実験を行い、利点と欠点、限界について考察しました。機械翻訳では、MQM を用いた単語単位の品質推定の可能性について実験および考察を行いました。また、テキスト平易化の品質推定に向けたデータセットの拡充と、それを用いた品質推定手法の研究を行いました。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

当初計画していた文法誤り訂正と機械翻訳については順調にデータセット作成や品質推定手法の検討が進んでいるだけでなく、テキスト平易化タスクについてもデータセット作成や品質推定手法の検討が進んでいるため、順調に進展しています。

今後の研究の推進方策

文法誤り訂正の評価データセットの構築については、本年度は実際にデータセットの構築に着手し、国際会議への投稿を目指します。機械翻訳の品質推定については、単語単位での評価と文単位での評価の統合について検討します。テキスト平易化については、大規模言語モデル等の外部を活用した品質推定手法について引き続き実験を行います。

  • 研究成果

    (4件)

すべて 2023 2022

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (3件) (うち国際学会 1件)

  • [雑誌論文] 日本語文法誤り訂正のための誤用タグ付き評価コーパスの構築2023

    • 著者名/発表者名
      小山碧海, 喜友名朝視顕, 小林賢治, 新井美桜, 三田雅人, 岡照晃, 小町守
    • 雑誌名

      自然言語処理

      巻: 30 ページ: -

    • 査読あり / オープンアクセス
  • [学会発表] Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction2022

    • 著者名/発表者名
      Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
    • 学会等名
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
    • 国際学会
  • [学会発表] ProQE: Proficiency-wise Quality Estimation Dataset for Grammatical Error Correction2022

    • 著者名/発表者名
      Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
    • 学会等名
      13th Edition of Language Resources and Evaluation Conference (LREC 2022)
  • [学会発表] 日本語文法誤り訂正コーパスへの誤用タグ付け2022

    • 著者名/発表者名
      小山碧海, 喜友名朝視顕, 三田雅人, 岡照晃, 小町守
    • 学会等名
      情報処理学会研究報告自然言語処理

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi