2018 Fiscal Year Research-status Report
異構造の言語間翻訳の精度改善のための構文森に基づくニューラル機械翻訳の研究
Project/Area Number |
18K18110
|
Research Institution | Ehime University |
Principal Investigator |
田村 晃裕 愛媛大学, 理工学研究科(工学系), 助教 (20804165)
|
Project Period (FY) |
2018-04-01 – 2020-03-31
|
Keywords | ニューラル機械翻訳 / 構文森 / Transformer / ニューラルネットワーク / 機械翻訳 |
Outline of Annual Research Achievements |
本研究は、翻訳元の文の構造を活用するニューラル機械翻訳(NMT)の性能改善を目指すものである。従来の文構造を活用するNMTでは、構文解析の結果、最適解となった文の構文木を活用するため、解析結果の構文木に誤りが含まれていると翻訳精度に悪影響を及ぼすという問題がある。そこで、構文解析の複数の解析結果を圧縮して表現した構文森を活用することで翻訳性能の改善を目指している。研究実施計画通り、NMTにおける構文森の導入方法として、(1)構文森を系列データに変換した後で系列変換モデルによるNMTで翻訳を行う方法と(2)構文森をNMTモデル内で直接エンコードする方法の2種類のアプローチで研究を進めている。 当該年度では、方法(1)を具体化・実装し、科学技術論文に関する英日翻訳で考案モデルの有効を示した。具体的には、構文森を系列データに変換する新たな手法を考案し、変換した構文森の系列データを入力として翻訳を行う新たなリカレントニューラルネットワーク(RNN)に基づくNMTモデルを考案した。そして、ASPECデータを用いた英日翻訳実験で、構文情報を使わないNMT及び構文木を活用するNMTと比較し、翻訳性能の評価指標であるBLEUで、それぞれ5.07、2.75ポイント翻訳性能が向上することを確認した。 また、近年、NMTの分野ではTransformerというモデルがRNNに基づくNMTの性能を凌駕し、一般的になりつつある状況を踏まえて、方法(2)として、Transformerモデルにおいて構文森をエンコードする方法を考案し、実装を行った。具体的には、Transformerモデルの特徴である、自己注意機構及び位置エンコーディングで構文森の情報をエンコードする方法を考案、実装を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究計画では、2年間の研究期間で、2種類のアプローチ((1)構文森を系列データに変換した後で系列変換モデルによるNMTで翻訳を行う方法と(2)構文森をNMTモデル内で直接エンコードする方法)を試し、構文森を活用することで翻訳性能を改善することを目標としている。当該年度では2種類のアプローチの内、方法(1)の実装を完了し、構文森を活用することで英日翻訳性能が改善できることを実験的に示せた。さらに、方法(2)にも着手し、アルゴリズムの具体化と実装を終えている。残りの一年で方法(2)に関して実験を行いながら手法を改善すれば本研究の目的は果たせる。以上のことからおおむね順調に進展していると考えられる。
|
Strategy for Future Research Activity |
当初の研究計画の2種類のアプローチ((1)構文森を系列データに変換した後で系列変換モデルによるNMTで翻訳を行う方法と(2)構文森をNMTモデル内で直接エンコードする方法)の方法(2)の有効性を英日翻訳実験で検証する。現在は単純な方式なので、実験を行いながら洗練したモデルに改良していく予定である。
|
Causes of Carryover |
次年度使用額が生じた理由:計算サーバにアクセスするためのクライアントノートPCの購入を予定していたが、既存のノートPCを使用したため。 使用計画:考案手法の有効性を検証する実験を効率よく進めるために必要となる、GPUメモリの大きな科学計算用GPUを搭載した高性能の計算サーバを当初の計画のスペックに近づけるための差額にあてる(申請額からの減額分を補填するため)。
|
Research Products
(3 results)