本研究は、構文解析の複数の解析結果を圧縮して表現した構文森を活用することで、ニューラル機械翻訳(NMT)の性能改善を目指すものである。研究期間全体を通じて、研究実施計画通り、(1)入力文の構文森を系列データに変換した後で系列変換モデルによるNMTで翻訳を行う方法(2018年度実施)と(2)入力文の構文森をNMTモデル内で直接エンコードする方法(最終年度実施)の2種類の提案モデルを考案し、その有効性を確認した。 2018年度に実施した方法(1)に関する研究では、構文森を系列に変換し、変換した構文森の系列に基づき翻訳を行うリカレントニューラルネットワーク(RNN)に基づくNMTモデルを考案した。そして、ASPECデータを用いた科学技術論文に関する英日翻訳実験を通じて、提案モデルは、構文情報を使わない場合や構文木を使用する場合よりも、翻訳性能の評価指標であるBLEUで、それぞれ、5.07、2.75ポイント翻訳性能が良いことを示した。 最終年度に実施した方法(2)に関する研究では、近年のNMTで最高性能を達成しているTransformerモデルの内部(自己注意機構及び位置エンコーディング)で構文森の情報を活用する方法を考案した。そして、ASPECデータを用いた科学技術論文に関する英日翻訳実験を通じて、提案モデルは、構文情報を使わない場合や構文木を使用する場合よりも、BLEUで、それぞれ、1.99、0.6ポイント翻訳性能が良いことを示した。 これらの研究成果により、構文森を活用することで英日翻訳の精度が向上することを明らかにし、実施した翻訳設定において、従来の構文情報を用いないNMTや構文木に基づくNMTより翻訳精度が高い、最高の翻訳精度を達成するNMTモデルを実現した。また、実施した翻訳設定では、方法(2)よりも方法(1)の性能の改善幅が大きく、翻訳精度も高いことが分かった。
|