品質推定に基づく半教師あり機械翻訳

研究課題

研究課題/領域番号	20K19861
研究種目	若手研究
配分区分	基金
審査区分	小区分61030:知能情報学関連
研究機関	愛媛大学
研究代表者	梶原智之愛媛大学, 理工学研究科(工学系), 講師 (70824960)
研究期間 (年度)	2020-04-01 – 2024-03-31
研究課題ステータス	完了 (2023年度)
配分額 *注記	4,030千円 (直接経費: 3,100千円、間接経費: 930千円) 2023年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2022年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2021年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2020年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード	機械翻訳 / 品質推定 / 強化学習 / 自然言語処理 / 知能情報学
研究開始時の研究の概要	東京五輪や大阪万博に向けて、機械翻訳の精度向上が急務である。従来の機械翻訳の訓練では、モデルが出力した翻訳文を単語単位で表層的に正解文と比較して品質を評価し、モデルにフィードバックする。しかし、このような方法では、正解文と表層的に一致しない良い翻訳文に対して不当に低い評価を与える場合がある。本研究では、文単位で意味的に入力文と比較して翻訳文を評価し、翻訳器を訓練する。この方法では、対訳データなしで翻訳器を訓練できるため、少資源や教師なしの設定における中品質な機械翻訳を改善でき、各種サービスの多言語展開に貢献すると期待できる。
研究成果の概要	大阪万博に向けて、機械翻訳の精度向上が急務である。本研究では、自然言語処理モデルによる出力文を正解文なしで自動評価する品質推定に取り組み、これを報酬とする強化学習によって機械翻訳をはじめとするテキスト生成モデルの訓練にも取り組んだ。前者については、多言語文符号化器に基づく教師なし品質推定の手法を提案し、人手評価との相関において既存手法よりも高い性能を達成した。後者については、機械翻訳およびテキスト平易化において、報酬関数として品質推定を用いる強化学習によって、生成文の品質を改善した。
研究成果の学術的意義や社会的意義	大阪万博に向けて、機械翻訳の精度向上が急務である。従来の機械翻訳の訓練では、出力文と正解文の単語一致率を最大化するように深層学習モデルを最適化するのが一般的であり、正解文と表層的に異なる出力文は意味的に正しくともペナルティを受けてしまう。単語単位で表層的な評価に基づくフィードバックを行う従来手法に対して、本研究では、文単位で意味的な評価に基づくフィードバックを用いて機械翻訳を訓練する。正解文の表現に対する依存を減らして柔軟な訓練を実現する本手法は、機械翻訳をはじめとする様々なテキスト生成技術の性能を改善する可能性を持つ。本研究では、機械翻訳とテキスト平易化において、その有効性を検証した。

報告書

(5件)

研究成果
(9件)

すべて 2023 2022 2021 2020

すべて雑誌論文 (2件) (うち査読あり 2件、オープンアクセス 2件) 学会発表 (7件) (うち国際学会 6件)

[雑誌論文] 多言語雑音除去自己符号化器による教師なし品質推定2022
- 著者名/発表者名
  西原哲郎, 岩本裕司, 吉仲真人, 梶原智之, 荒瀬由紀, 二宮崇
- 雑誌名
  
  自然言語処理
  
  巻: 29 号: 2 ページ: 669-687
- DOI
  10.5715/jnlp.29.669
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2022 実施状況報告書
- 査読あり / オープンアクセス
[雑誌論文] 文法誤り訂正の参照文を用いない自動評価の人手評価への最適化2021
- 著者名/発表者名
  吉村綾馬, 金子正弘, 梶原智之, 小町守
- 雑誌名
  
  自然言語処理
  
  巻: 28 号: 2 ページ: 404-427
- DOI
  10.5715/jnlp.28.404
- NAID
  130008052579
- ISSN
  1340-7619, 2185-8314
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] Unsupervised Translation Quality Estimation Exploiting Synthetic Data and Pre-trained Multilingual Encoder2023
- 著者名/発表者名
  Yuto Kuroda, Atsushi Fujita, Tomoyuki Kajiwara, Takashi Ninomiya
- 学会等名
  arXiv:2311.05117
- 関連する報告書
  2023 実績報告書
[学会発表] Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation2022
- 著者名/発表者名
  Yuto Kuroda, Tomoyuki Kajiwara, Yuki Arase, Takashi Ninomiya
- 学会等名
  Proceedings of the 29th International Conference on Computational Linguistics
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation2022
- 著者名/発表者名
  Yuki Nakatani, Tomoyuki Kajiwara, Takashi Ninomiya
- 学会等名
  Proceedings of the 9th Workshop on Asian Translation
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Language-agnostic Representation from Multilingual Sentence Encoders for Cross-lingual Similarity Estimation2021
- 著者名/発表者名
  Nattapong Tiyajamorn, Tomoyuki Kajiwara, Yuki Arase, Makoto Onizuka
- 学会等名
  Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing
- 関連する報告書
  2021 実施状況報告書
- 国際学会
[学会発表] Text Simplification with Reinforcement Learning using Supervised Rewards on Grammaticality, Meaning Preservation, and Simplicity2020
- 著者名/発表者名
  Akifumi Nakamachi, Tomoyuki Kajiwara, Yuki Arase
- 学会等名
  Proceedings of the AACL-IJCNLP 2020 Student Research Workshop
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020
- 著者名/発表者名
  Ryoma Yoshimura, Masahiro Kaneko, Tomoyuki Kajiwara, Mamoru Komachi
- 学会等名
  Proceedings of the 28th International Conference on Computational Linguistics
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] TMUOU Submission for WMT20 Quality Estimation Shared Task2020
- 著者名/発表者名
  Akifumi Nakamachi, Hiroki Shimanaka, Tomoyuki Kajiwara, Mamoru Komachi
- 学会等名
  Proceedings of the Fifth Conference on Machine Translation
- 関連する報告書
  2020 実施状況報告書
- 国際学会

品質推定に基づく半教師あり機械翻訳

研究代表者

梶原 智之 愛媛大学, 理工学研究科(工学系), 講師 (70824960)

4,030千円 (直接経費: 3,100千円、間接経費: 930千円)

報告書

研究成果

[雑誌論文] 多言語雑音除去自己符号化器による教師なし品質推定2022

著者名/発表者名

雑誌名

DOI

ISSN

関連する報告書

[雑誌論文] 文法誤り訂正の参照文を用いない自動評価の人手評価への最適化2021

著者名/発表者名

雑誌名

DOI

NAID

ISSN

関連する報告書

[学会発表] Unsupervised Translation Quality Estimation Exploiting Synthetic Data and Pre-trained Multilingual Encoder2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Adversarial Training on Disentangling Meaning and Language Representations for Unsupervised Quality Estimation2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Comparing BERT-based Reward Functions for Deep Reinforcement Learning in Machine Translation2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Language-agnostic Representation from Multilingual Sentence Encoders for Cross-lingual Similarity Estimation2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Text Simplification with Reinforcement Learning using Supervised Rewards on Grammaticality, Meaning Preservation, and Simplicity2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] SOME: Reference-less Sub-Metrics Optimized for Manual Evaluations of Grammatical Error Correction2020

著者名/発表者名

学会等名

関連する報告書

[学会発表] TMUOU Submission for WMT20 Quality Estimation Shared Task2020

著者名/発表者名

学会等名

関連する報告書

梶原智之愛媛大学, 理工学研究科(工学系), 講師 (70824960)