2022 Fiscal Year Research-status Report

品質推定に基づく半教師あり機械翻訳

Research Project

Project/Area Number	20K19861
Research Institution	Ehime University
Principal Investigator	梶原智之愛媛大学, 理工学研究科(工学系), 助教 (70824960)
Project Period (FY)	2020-04-01 – 2024-03-31
Keywords	機械翻訳 / 品質推定 / 強化学習
Outline of Annual Research Achievements	本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを活用して半教師ありの設定で機械翻訳をはじめとするテキスト生成モデルを訓練する。今年度は、品質推定の研究に取り組むとともに、品質推定などの評価の技術を機械翻訳の訓練に活用するための強化学習の研究にも取り組んだ。 (i) Encoderモデルに基づく機械翻訳の品質推定：複数言語のデータを用いて単語穴埋めの事前学習を行ったマスク言語モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、マスク言語モデルから得られる文ベクトルを、言語情報を表す言語ベクトルと意味情報を表す意味ベクトルに分離した。特に、言語情報と意味情報の分離を促すために、敵対的学習を行い、意味ベクトルから入力言語を判別できないように工夫した。この意味ベクトルを用いて、入力文と出力文の間の意味的類似度推定を行うことで、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、Encoderモデルに基づく機械翻訳の教師なし品質推定において、最高性能を達成した。 (ii) Encoder-Decoderモデルに基づく機械翻訳の品質推定：複数言語のデータを用いて単語穴埋めの事前学習を行った系列変換モデルをベースに、言語横断の文間意味的類似度推定モデルを構築した。提案手法では、入力文から出力文を生成する際の文生成確率に基づき、正解文や人手評価値を使用しない教師なし設定での品質推定を実現した。実験の結果、特に多資源言語対において、Encoderモデルに基づく品質推定の性能を上回ることを確認した。 (iii) 機械翻訳のための強化学習：様々な評価指標を報酬として機械翻訳の強化学習を行った。実験の結果、マスク言語モデルに基づく評価指標を報酬とすることで、機械翻訳の品質を改善できることを確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 品質推定および強化学習の研究に取り組み、知見を得ることができた。
Strategy for Future Research Activity	今年度は、機械翻訳における品質推定の性能を改善するとともに、強化学習の報酬としてマスク言語モデルを活用して機械翻訳の品質を改善した。今後は、品質推定を直接的に強化学習に活かす方法を検討する。
Causes of Carryover	新型コロナウイルスの影響により、学会等への出張が減り、旅費の支出が減ったため。

Research Products
(3 results)

All 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (2 results) (of which Int'l Joint Research: 2 results)

[Journal Article] 多言語雑音除去自己符号化器による教師なし品質推定2022
- Author(s)
  西原哲郎, 岩本裕司, 吉仲真人, 梶原智之, 荒瀬由紀, 二宮崇
- Journal Title
  
  自然言語処理
  
  Volume: 29 Pages: 669～687
- DOI
  10.5715/jnlp.29.669
- Peer Reviewed / Open Access
[Presentation] Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation2022
- Author(s)
  Yuto Kuroda, Tomoyuki Kajiwara, Yuki Arase, Takashi Ninomiya
- Organizer
  Proceedings of the 29th International Conference on Computational Linguistics
- Int'l Joint Research
[Presentation] Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation2022
- Author(s)
  Yuki Nakatani, Tomoyuki Kajiwara, Takashi Ninomiya
- Organizer
  Proceedings of the 9th Workshop on Asian Translation
- Int'l Joint Research

2022 Fiscal Year Research-status Report

品質推定に基づく半教師あり機械翻訳

Principal Investigator

梶原 智之 愛媛大学, 理工学研究科(工学系), 助教 (70824960)

Current Status of Research Progress

Reason

Research Products

[Journal Article] 多言語雑音除去自己符号化器による教師なし品質推定2022

Author(s)

Journal Title

DOI

[Presentation] Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation2022

Author(s)

Organizer

[Presentation] Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation2022

Author(s)

Organizer

梶原智之愛媛大学, 理工学研究科(工学系), 助教 (70824960)