• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

Research Project

Project/Area Number 22K12177
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionDoshisha University

Principal Investigator

田村 晃裕  同志社大学, 理工学部, 准教授 (20804165)

Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2023: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000)
Fiscal Year 2022: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Keywords機械翻訳 / ニューラルネットワーク / 難易度制御 / 疑似教師データ / 事前学習
Outline of Research at the Start

翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)を一般的な言語対で実現する。機械翻訳を多様な読解レベルのユーザに対応させる等の目的で、翻訳文の難易度を指定可能な機械翻訳が研究されている。しかし、既存の多段階難易度制御NMTは、特殊なデータが揃った英語とスペイン語の言語対のみが対象である。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTを実現する。

Outline of Annual Research Achievements

本研究では、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)の実現を目指す。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。
2022年度は、逆翻訳モデルによりNewselaコーパス(種々の難易度を持つ単言語データ)から自動作成した難易度付き対訳文対を多段階難易度制御NMTの疑似教師データとして用いる手法を開発した。2023年度はこの教師なし多段階難易度制御NMTにおいて、「疑似教師データの高品質化」と「事前学習の拡充」を行うことで性能を改善した。
疑似教師データの高品質化に関しては、疑似教師データ中に含まれる不適切な難易度を自動検出してフィルタリングする手法を開発した。具体的には、編集距離が閾値以下の文に対して同じ難易度が付与されている場合、それらの難易度は信頼できない難易度として学習で考慮する手法を開発した。事前学習の拡充に関しては、これまでは難易度を制御しない一般的な機械翻訳タスクで事前学習を行っていたが、2023年度は一般的な機械翻訳タスクに加えて、単一言語の平易化タスクでの事前学習も行うように改良した。日本語から英語への多段階難易度制御翻訳実験を行い、開発したフィルタリング手法により翻訳性能の評価指標であるBLEUが0.17ポイント改善でき、事前学習を拡充することでBLEUが1.1ポイント改善できることを確認した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法((1)種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と(2)少量の教師データを人手で作成して用いる半教師あり学習)を創出することを目指している。これまで2種類の方法のうち、方法(1)の具体化と実装を完了し、教師なし日英多段階難易度制御NMTモデルを実現した。残りは、方法(2)に関して、教師データの作成、方法のアルゴリズム化と実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。

Strategy for Future Research Activity

日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2023年度までに開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (5 results)

All 2023 2022

All Presentation (5 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] Multimodal Neural Machine Translation Using Synthetic Images Transformed by Latent Diffusion Model2023

    • Author(s)
      Ryoya Yuasa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
    • Organizer
      The ACL Student Research Workshop 2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] タグ付けモデルと埋め込みモデルのアンサンブルに基づき固有表現を考慮するニューラル機械翻訳モデル2023

    • Author(s)
      南端 尚樹, 田村 晃裕, 加藤 恒夫
    • Organizer
      第257回情報処理学会自然言語処理研究発表会
    • Related Report
      2023 Research-status Report
  • [Presentation] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023

    • Author(s)
      谷 和樹, 湯浅 亮也, 田村 晃裕, 梶原 智之, 二宮 崇, 加藤 恒夫
    • Organizer
      言語処理学会 第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023

    • Author(s)
      湯浅 亮也, 田村 晃裕, 梶原 智之, 二宮 崇, 加藤 恒夫
    • Organizer
      言語処理学会 第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022

    • Author(s)
      Kazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
    • Organizer
      The 13th Language Resources and Evaluation Conference
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi