2021 Fiscal Year Annual Research Report
Neural Machine Translation Integrated with Knowledge Graph
Project/Area Number |
20K23325
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
渡辺 太郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (90395038)
|
Project Period (FY) |
2020-09-11 – 2022-03-31
|
Keywords | 機械翻訳 / 知識グラフ |
Outline of Annual Research Achievements |
深層学習により大幅な性能向上を果たしたニューラル機械翻訳は、モデルの学習のために、大量のデータを必要とする。ところが、データを増やすだけでは、固有表現や、誕生日などの属性、所属先など他のオブジェクトとの関連性など、日々更新される知識を翻訳するのは難しい。本研究では、物事の属性および関連性を記述し、かつ、不完全ながらも多言語化された知識グラフを統合した機械翻訳を実現することで、問題が解決できるかを解明する。 本研究では、2つの手法を提案した。一つは、原言語を固有表現抽出器で固有表現を同定し、その位置を特殊な記号へ変換、その特殊な記号に対して知識グラフのベクトル表現を用いる手法である(KG-tag NMT)。もう一つは、特殊な記号への変換はせず、単語よりもより粒度の細かい、サブワード単位に学習された知識グラフのベクトル表現を用いる手法である(Subworded-KG NMT)。KG-tag NMTでは、知識グラフの知識を明示的に反映できるが、原言語の入力文と必ずしも対応する固有表現が存在するとは限らない。Subworded-KG NMTでは、固有表現をサブワード単位へ分割し、エンコーダ・デコーダの枠組みで学習する手法を実現した。このため、カバレッジが非常に大きくなり、入力文のほぼ全ての固有表現に対し、知識グラフを反映可能である。さらに、エンコーダの最終層を用いることで、サブワード単位ではなく、固有表現単位の潜在的な表現を用いる手法を提案した。 英独機械翻訳のベンチマークで用いられるWMT14では、従来法と比較して、KG-tag NMTでは性能向上が見られなかったが、Subworded-KG NMTでは、機械翻訳の標準的な評価尺度BLEUで1ポイント以上の向上が見られた。エンコーダの最終層を用いることで、さらに約0.2-0.3ポイントの向上が見られた。
|