2023 Fiscal Year Research-status Report
翻訳文の難易度を多段階で指定可能なニューラル機械翻訳
Project/Area Number |
22K12177
|
Research Institution | Doshisha University |
Principal Investigator |
田村 晃裕 同志社大学, 理工学部, 准教授 (20804165)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 機械翻訳 / ニューラルネットワーク / 難易度制御 / 疑似教師データ / 事前学習 |
Outline of Annual Research Achievements |
本研究では、一般的な言語対において、翻訳文の難易度を多段階で指定可能なニューラルネットワークに基づく機械翻訳(多段階難易度制御NMT)の実現を目指す。既存の多段階難易度制御NMTは、翻訳元言語の文、翻訳先言語の文、翻訳先言語の文の難易度の三つ組が教師データとして揃っている、英語とスペイン語の言語対のみが対象になっている。そこで本研究では、多段階難易度制御NMT用の教師データが存在しない一般的な言語対において、種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と、少量の教師データを人手で作成して用いる半教師あり学習の二種類の方法で多段階難易度制御NMTの実現を目指す。 2022年度は、逆翻訳モデルによりNewselaコーパス(種々の難易度を持つ単言語データ)から自動作成した難易度付き対訳文対を多段階難易度制御NMTの疑似教師データとして用いる手法を開発した。2023年度はこの教師なし多段階難易度制御NMTにおいて、「疑似教師データの高品質化」と「事前学習の拡充」を行うことで性能を改善した。 疑似教師データの高品質化に関しては、疑似教師データ中に含まれる不適切な難易度を自動検出してフィルタリングする手法を開発した。具体的には、編集距離が閾値以下の文に対して同じ難易度が付与されている場合、それらの難易度は信頼できない難易度として学習で考慮する手法を開発した。事前学習の拡充に関しては、これまでは難易度を制御しない一般的な機械翻訳タスクで事前学習を行っていたが、2023年度は一般的な機械翻訳タスクに加えて、単一言語の平易化タスクでの事前学習も行うように改良した。日本語から英語への多段階難易度制御翻訳実験を行い、開発したフィルタリング手法により翻訳性能の評価指標であるBLEUが0.17ポイント改善でき、事前学習を拡充することでBLEUが1.1ポイント改善できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画では、3年間の研究期間で、多段階難易度制御NMTを実現するための2種類の方法((1)種々の難易度を持つ翻訳先言語の単言語データを用いる教師なし学習と(2)少量の教師データを人手で作成して用いる半教師あり学習)を創出することを目指している。これまで2種類の方法のうち、方法(1)の具体化と実装を完了し、教師なし日英多段階難易度制御NMTモデルを実現した。残りは、方法(2)に関して、教師データの作成、方法のアルゴリズム化と実装、実験による効果検証を行えば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。
|
Strategy for Future Research Activity |
日英多段階難易度制御NMTの半教師あり学習のための少量の教師データを人手で作成する。そして、作成した教師データも用いる半教師あり多段階難易度制御NMTモデルの具体化と実装を行う。具体的には、2023年度までに開発した教師なし日英多段階難易度制御NMTモデルを、作成した教師データを用いてファインチューニングする方法などを試す予定である。
|
Causes of Carryover |
次年度使用額が生じた理由:今年度までは教師なし学習に注力したため、多段階難易度制御NMT用の教師データを作成するための業務委託費を使用しなかったため。 使用計画:次年度は半教師あり多段階難易度制御NMTモデルの開発を行う。そのための教師データを作成するための業務委託費として使用する。
|