研究実績の概要 |
前年度までに開発したゼロショット機械翻訳手法の表現能力をさらに向上させるための要素技術の開発を行った。提案手法では、ソース言語とターゲット言語の完全なアラインメントをとることは原理的に不可能であるため、入力文から得られる潜在表現は必ずしも十分な情報を含んでいない。このため、潜在表現からのデコード時には、単純に精度のみを重視するのではなく多様な候補を出力することが、最終的にユーザーにとって有用な翻訳結果を漏らさないために重要であると考えられる。 これを実現するために、まず、潜在表現のデコード時においてツリー構造を用いて各ステップにおける候補を管理することにより、効率的に解空間を探索するヒューリスティックアルゴリズムを提案した。本手法は従来の一般的な方法であるビームサーチよりもより多様な解の候補を管理することができ、結果として翻訳の精度も向上することが示された。本手法は、自然言語処理のトップ国際会議であるAnnual Meeting of the Association for Computational Linguistics (ACL)へ採択された。 さらに、文をsemantics, syntaxなどさまざまな観点からコード化(量子化)し、これをターゲット文の先頭に付加することで条件付きのデコーディングを行い、多様な文生成を行う手法を提案した。コードは出力文の意味構造や文法構造に関する抽象的なパターンに相当すると解釈でき、これを指定することで明示的に性質の異なる解候補を出力できる。実際に、提案手法は翻訳の精度(BLEU値)を損なわずに多様性を大幅に改善できることが示された。本手法は、言語処理学会年次大会において最優秀賞を受賞した。
|