外国人観光客の急増や2020年東京オリンピック開催などのため、翻訳の需要が急速に高まっており、機械翻訳(MT)は不可欠である。MTでは翻訳知識が対訳コーパス(文単位のバイリンガルテキスト)から獲得される。しかし、日本語とほとんどの言語の間(例えばインドネシア語)及び分野(例えば医療)において対訳コーパスは少ないため、翻訳の品質が低い。そのような低資源の場合にいかに翻訳精度を上げるかは挑戦的かつ未解決な問題である。我々は資源豊富な言語対(例えば英語ーフランス語)や分野(例えば議会)の対訳コーパス及び単言語コーパスといったマルチリソースを用いて低資源MTの翻訳品質を大幅に向上した。
|