本研究の目的は、1。単言語データから類推関係クラスターを構築し、2。そのクラスターから擬似パラレルコーパスを生成し、3。パラレルコーパスに追加することにより4。統計的機械翻訳(SMT)の精度を向上させる。 そのため、様々なツールを実装し公開した。新しいデータ構造も導入した:類推関係グリッド。形態的に貧しい言語を始め形態豊かな言語を渡って様々な言語でデータを構築した:欧州連合の11ヶ国語、中国語、日本語、また追加言語(アラビア語、グルジア語、ナバホ語、ロシア語、トルコ語)。データの一部分は公開した。 行った実験で擬似パラレルコーパスの追加により日中SMTの翻訳精度を向上することを明らかにした。
|