自然言語処理、特に機械翻訳においても深層学習を用いる手法が従来手法を上回る性能を達成することが示されつつある。本研究課題の当初の考えでは、従来の機械翻訳手法に同時音声翻訳用のアルゴリズムを搭載することを目指していたが、機械翻訳の根幹に大きな転換が発生したため、従来の考えをそのまま適用することは困難となった。 このため本年度は、新たに出現した深層学習に基づく機械翻訳手法について考察を行い、それらの利点および問題点の調査を行った。この結果、新たな手法は従来よりも多大な計算資源を要するため、同時音声翻訳のような即時性・システムの軽量性が必要な分野では応用が困難であることが分かった。 この問題を解決するため、単語を特定のビット列に変換し、その符号表現を代わりに推定することで単語推定の計算量を圧縮する新手法を提案した。この手法では各符号の確率の積で単語の確率を表現でき、計算量は理論的に従来手法の対数程度まで圧縮可能である。また、この手法の翻訳精度を向上するための2種類の改善手法を共に提案した。実験の結果、提案手法は従来手法と比較して使用メモリの面で数十分の1、実行速度の面で10倍程度の性能であることが示され、さらにその翻訳精度は従来手法に匹敵するかそれ以上となることも示された。 これらの研究を複数の国内会議にて発表を行い、特にNLP若手の会シンポジウムでは奨励賞を獲得した。また自然言語処理分野のトップカンファレンスであるACLへ論文を投稿し、採択されている。 また同時音声翻訳システムを作成する際の根幹となる同時通訳コーパスの収集作業についても昨年度より継続して行った。 さらに、深層学習に基づく機械翻訳手法をまとめたツールキットを開発し、オープンソースソフトウェアとして公開を行った。公開後にNTTや情報通信研究機構等において一定の利用実績が得られ、機械翻訳分野への大きな貢献となると考えている。
|