• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

Research Project

Project/Area Number 22K12177
Research InstitutionDoshisha University

Principal Investigator

田村 晃裕  同志社大学, 理工学部, 准教授 (20804165)

Project Period (FY) 2022-04-01 – 2025-03-31
Keywords機械翻訳 / ニューラルネットワーク / 難易度制御
Outline of Annual Research Achievements

本研究は、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)の実現を目指すものである。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。
2022年度では、種々の難易度を持つ翻訳先言語の単言語データを利用する教師なし学習による多段階難易度制御NMTモデルを具体化し、実装した。具体的には、まず、翻訳先言語の文を翻訳元言語の文に翻訳する逆翻訳モデルを対訳データから学習する。次に、学習した逆翻訳モデルで種々の難易度を持つ翻訳先言語の単言語データを翻訳元言語の文に翻訳することで、多段階難易度制御NMT用の疑似三つ組データを自動作成する。そして、自動作成した疑似三つ組データを用いた教師あり学習により多段階難易度制御NMTを実現した。
さらに、この創出した枠組みにおいて、疑似三つ組データ作成時の逆翻訳モデルを複数用いて疑似三つ組データの量を増やすことで性能改善を図った。日本語から英語への多段階難易度制御翻訳実験を行い、複数の逆翻訳モデルを用いることで、翻訳性能の評価指標であるBLEUが2.48ポイント、平易化の評価指標であるSARIが1.12ポイント改善できることを確認した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法((1)種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と(2)少量の教師データを人手で作成して用いる半教師あり学習)を創出することを目指している。2022年度では2種類の方法のうち、方法(1)の具体化と実装を完了し、日英多段階難易度制御NMTモデルを実現した。残りの二年間で、方法(2)のための教師データの作成と、方法(2)のアルゴリズム化・実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。

Strategy for Future Research Activity

日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2022年度に開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。また、2022年度に開発した多段階難易度制御NMTのための教師なし学習手法の更なる性能改善も同時に行う。

Causes of Carryover

次年度使用額が生じた理由:GPU計算サーバーの購入を予定していたが、既存のGPUサーバーを使用できたため。
使用計画:2023年度からは多段階難易度制御NMTのための教師なし学習手法と半教師あり学習手法を並行して研究、開発する必要がある。そのためには、既存のGPUサーバーだけでは計算資源が足りないため、2022年度に購入予定だったGPUサーバーを2023年度に購入する予定である。

  • Research Products

    (3 results)

All 2023 2022

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023

    • Author(s)
      谷 和樹, 湯浅 亮也, 田村 晃裕, 梶原 智之, 二宮 崇, 加藤 恒夫
    • Organizer
      言語処理学会 第29回年次大会
  • [Presentation] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023

    • Author(s)
      湯浅 亮也, 田村 晃裕, 梶原 智之, 二宮 崇, 加藤 恒夫
    • Organizer
      言語処理学会 第29回年次大会
  • [Presentation] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022

    • Author(s)
      Kazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
    • Organizer
      The 13th Language Resources and Evaluation Conference
    • Int'l Joint Research

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi