• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

品質推定に基づく半教師あり機械翻訳

Research Project

Project/Area Number 20K19861
Research InstitutionEhime University

Principal Investigator

梶原 智之  愛媛大学, 理工学研究科(工学系), 助教 (70824960)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywords機械翻訳 / 品質推定 / 強化学習
Outline of Annual Research Achievements

本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、入力文と出力文が同一言語である文法誤り訂正タスクと、入力文と出力文が異言語である機械翻訳タスクの両方において、品質推定モデルの改善に取り組んだ。
(i) 文法誤り訂正タスクにおける品質推定
英語の文法誤り訂正システムによる出力文に対して、文法性・流暢性・同義性の3項目に関する人手評価値を付与したデータセットを構築し、公開した。そして、このデータセットを用いて、品質推定モデルを教師あり学習した。実験の結果、我々の品質推定モデルが、正解文に基づく評価指標や既存の品質推定モデルよりも高い人手評価との相関を達成することが明らかになった。また、27種類の誤りに関する詳細な分析の結果、既存モデルがいくつかの種類の誤り訂正に対して減点してしまっているのに対して、提案モデルは全ての種類の誤り訂正に対して適切に加点できていることがわかった。
(ii) 機械翻訳タスクにおける品質推定
複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離する。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、人手評価値を使用しない教師なし設定での機械翻訳の品質推定を実現した。実験の結果、多くのベースモデルと言語対の組み合わせにおいて、品質推定の性能を改善できることがわかった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

品質推定の研究に取り組み、新たな知見を得ることができた。

Strategy for Future Research Activity

今年度は、単言語タスクと言語横断タスクの両方において、品質推定の性能を改善した。これを報酬とする強化学習によって、機械翻訳などのテキスト生成タスクの性能改善に取り組む。

Causes of Carryover

新型コロナウイルスの影響により、学会等への出張がなくなり、旅費の支出がなくなったため。

  • Research Products

    (2 results)

All 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] 文法誤り訂正の参照文を用いない自動評価の人手評価への最適化2021

    • Author(s)
      吉村綾馬, 金子正弘, 梶原智之, 小町守
    • Journal Title

      自然言語処理

      Volume: 28 Pages: 404~427

    • DOI

      10.5715/jnlp.28.404

    • Peer Reviewed / Open Access
  • [Presentation] Language-agnostic Representation from Multilingual Sentence Encoders for Cross-lingual Similarity Estimation2021

    • Author(s)
      Nattapong Tiyajamorn, Tomoyuki Kajiwara, Yuki Arase, Makoto Onizuka
    • Organizer
      Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi