翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

研究課題

研究課題/領域番号	22K12177
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	同志社大学
研究代表者	田村晃裕同志社大学, 理工学部, 准教授 (20804165)
研究期間 (年度)	2022-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2024年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2023年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2022年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
キーワード	機械翻訳 / ニューラルネットワーク / 難易度制御 / 疑似教師データ / 事前学習
研究開始時の研究の概要	翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳（多段階難易度制御NMT）を一般的な言語対で実現する。機械翻訳を多様な読解レベルのユーザに対応させる等の目的で、翻訳文の難易度を指定可能な機械翻訳が研究されている。しかし、既存の多段階難易度制御NMTは、特殊なデータが揃った英語とスペイン語の言語対のみが対象である。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTを実現する。
研究実績の概要	本研究では、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳（多段階難易度制御NMT）の実現を目指す。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。 2022年度は、逆翻訳モデルによりNewselaコーパス（種々の難易度を持つ単言語データ）から自動作成した難易度付き対訳文対を多段階難易度制御NMTの疑似教師データとして用いる手法を開発した。2023年度はこの教師なし多段階難易度制御NMTにおいて、「疑似教師データの高品質化」と「事前学習の拡充」を行うことで性能を改善した。疑似教師データの高品質化に関しては、疑似教師データ中に含まれる不適切な難易度を自動検出してフィルタリングする手法を開発した。具体的には、編集距離が閾値以下の文に対して同じ難易度が付与されている場合、それらの難易度は信頼できない難易度として学習で考慮する手法を開発した。事前学習の拡充に関しては、これまでは難易度を制御しない一般的な機械翻訳タスクで事前学習を行っていたが、2023年度は一般的な機械翻訳タスクに加えて、単一言語の平易化タスクでの事前学習も行うように改良した。日本語から英語への多段階難易度制御翻訳実験を行い、開発したフィルタリング手法により翻訳性能の評価指標であるBLEUが0.17ポイント改善でき、事前学習を拡充することでBLEUが1.1ポイント改善できることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法（（１）種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と（２）少量の教師データを人手で作成して用いる半教師あり学習）を創出することを目指している。これまで2種類の方法のうち、方法（１）の具体化と実装を完了し、教師なし日英多段階難易度制御NMTモデルを実現した。残りは、方法（２）に関して、教師データの作成、方法のアルゴリズム化と実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。
今後の研究の推進方策	日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2023年度までに開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。

報告書

(2件)

2023 実施状況報告書
2022 実施状況報告書

研究成果
(5件)

すべて 2023 2022

すべて学会発表 (5件) (うち国際学会 2件)

[学会発表] Multimodal Neural Machine Translation Using Synthetic Images Transformed by Latent Diffusion Model2023
- 著者名/発表者名
  Ryoya Yuasa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
- 学会等名
  The ACL Student Research Workshop 2023
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] タグ付けモデルと埋め込みモデルのアンサンブルに基づき固有表現を考慮するニューラル機械翻訳モデル2023
- 著者名/発表者名
  南端尚樹, 田村晃裕, 加藤恒夫
- 学会等名
  第257回情報処理学会自然言語処理研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023
- 著者名/発表者名
  谷和樹, 湯浅亮也, 田村晃裕, 梶原智之, 二宮崇, 加藤恒夫
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023
- 著者名/発表者名
  湯浅亮也, 田村晃裕, 梶原智之, 二宮崇, 加藤恒夫
- 学会等名
  言語処理学会第29回年次大会
- 関連する報告書
  2022 実施状況報告書
[学会発表] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022
- 著者名/発表者名
  Kazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
- 学会等名
  The 13th Language Resources and Evaluation Conference
- 関連する報告書
  2022 実施状況報告書
- 国際学会

翻訳文の難易度を多段階で指定可能なニューラル機械翻訳

研究代表者

田村 晃裕 同志社大学, 理工学部, 准教授 (20804165)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Multimodal Neural Machine Translation Using Synthetic Images Transformed by Latent Diffusion Model2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] タグ付けモデルと埋め込みモデルのアンサンブルに基づき固有表現を考慮するニューラル機械翻訳モデル2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 異なる難易度の参照文を用いる多段階難易度制御翻訳2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 潜在拡散モデルによる変換画像を用いるマルチモーダルニューラル機械翻訳2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation2022

著者名/発表者名

学会等名

関連する報告書

田村晃裕同志社大学, 理工学部, 准教授 (20804165)