翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

Research Project

Project/Area Number	22K12177
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Doshisha University
Principal Investigator	田村晃裕同志社大学, 理工学部, 准教授 (20804165)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2024: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2023: ¥390,000 (Direct Cost: ¥300,000、Indirect Cost: ¥90,000) Fiscal Year 2022: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Keywords	機械翻訳 / ニューラルネットワーク / 難易度制御 / 疑似教師データ / 事前学習
Outline of Research at the Start	翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳（多段階難易度制御NMT）を一般的な言語対で実現する。機械翻訳を多様な読解レベルのユーザに対応させる等の目的で、翻訳文の難易度を指定可能な機械翻訳が研究されている。しかし、既存の多段階難易度制御NMTは、特殊なデータが揃った英語とスペイン語の言語対のみが対象である。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTを実現する。
Outline of Annual Research Achievements	本研究では、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳（多段階難易度制御NMT）の実現を目指す。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。 2022年度は、逆翻訳モデルによりNewselaコーパス（種々の難易度を持つ単言語データ）から自動作成した難易度付き対訳文対を多段階難易度制御NMTの疑似教師データとして用いる手法を開発した。2023年度はこの教師なし多段階難易度制御NMTにおいて、「疑似教師データの高品質化」と「事前学習の拡充」を行うことで性能を改善した。疑似教師データの高品質化に関しては、疑似教師データ中に含まれる不適切な難易度を自動検出してフィルタリングする手法を開発した。具体的には、編集距離が閾値以下の文に対して同じ難易度が付与されている場合、それらの難易度は信頼できない難易度として学習で考慮する手法を開発した。事前学習の拡充に関しては、これまでは難易度を制御しない一般的な機械翻訳タスクで事前学習を行っていたが、2023年度は一般的な機械翻訳タスクに加えて、単一言語の平易化タスクでの事前学習も行うように改良した。日本語から英語への多段階難易度制御翻訳実験を行い、開発したフィルタリング手法により翻訳性能の評価指標であるBLEUが0.17ポイント改善でき、事前学習を拡充することでBLEUが1.1ポイント改善できることを確認した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法（（１）種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と（２）少量の教師データを人手で作成して用いる半教師あり学習）を創出することを目指している。これまで2種類の方法のうち、方法（１）の具体化と実装を完了し、教師なし日英多段階難易度制御NMTモデルを実現した。残りは、方法（２）に関して、教師データの作成、方法のアルゴリズム化と実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。
Strategy for Future Research Activity	日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2023年度までに開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(5 results)

All 2023 2022

All Presentation (5 results) (of which Int'l Joint Research: 2 results)

[Presentation] Multimodal Neural Machine Translation Using Synthetic Images Transformed by Latent Diffusion Model2023
- Author(s)
  Ryoya Yuasa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
- Organizer
  The ACL Student Research Workshop 2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] タグ付けモデルと埋め込みモデルのアンサンブルに基づき固有表現を考慮するニューラル機械翻訳モデル2023
- Author(s)
  南端尚樹, 田村晃裕, 加藤恒夫
- Organizer
  第257回情報処理学会自然言語処理研究発表会
- Related Report
  2023 Research-status Report
[Presentation] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023
- Author(s)
  谷和樹, 湯浅亮也, 田村晃裕, 梶原智之, 二宮崇, 加藤恒夫
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023
- Author(s)
  湯浅亮也, 田村晃裕, 梶原智之, 二宮崇, 加藤恒夫
- Organizer
  言語処理学会第29回年次大会
- Related Report
  2022 Research-status Report
[Presentation] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022
- Author(s)
  Kazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
- Organizer
  The 13th Language Resources and Evaluation Conference
- Related Report
  2022 Research-status Report
- Int'l Joint Research

翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

Principal Investigator

田村 晃裕 同志社大学, 理工学部, 准教授 (20804165)

¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Multimodal Neural Machine Translation Using Synthetic Images Transformed by Latent Diffusion Model2023

Author(s)

Organizer

Related Report

[Presentation] タグ付けモデルと埋め込みモデルのアンサンブルに基づき固有表現を考慮するニューラル機械翻訳モデル2023

Author(s)

Organizer

Related Report

[Presentation] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023

Author(s)

Organizer

Related Report

[Presentation] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023

Author(s)

Organizer

Related Report

[Presentation] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022

Author(s)

Organizer

Related Report

田村晃裕同志社大学, 理工学部, 准教授 (20804165)