統計的機械翻訳(SMT)では対訳コーパスから翻訳知識を獲得するため、翻訳の精度は対訳コーパスの量と質に依存する。しかしながら、大規模かつ高品質な対訳コーパスが存在する言語対やドメインは少ない。この問題を解決するために、コンパラブルコーパスを利用することが考えられる。コンパラブルコーパスは各言語独立に、特定の話題について記述された文書対である。コンパラブルコーパスには単語、単語列(フラグメント)、文の三種類の対訳データが数多く存在する。この一年間、これらの対訳データを統合的に抽出するフレームワークを研究し、翻訳の精度を向上させた。得られた主要な成果は以下の通りである。 1. 対訳単語対抽出において、トピックと文脈知識を用いた反復的抽出手法を提案した。提案手法は種となる事前知識(対訳辞書など)が不要で、抽出の性能が反復的に改善できる。日英、中英、日中のWikipediaデータでの実験により、提案手法の有効性を示した。また、抽出した対訳単語対は後の対訳フラグメントおよび対訳文抽出に使用した。 2. Wikipediaデータから日中対訳コーパスを構築するための堅牢な対訳文抽出システムを提案した。提案システムは主に対訳文候補のフィルタおよび対訳文であるかどうかを識別する分類器から構成されている。実験では、対訳文抽出の性能と翻訳精度向上の2つの観点から、提案システムの有効性を示した。 3. 単語アライメントモデルにより抽出された対訳フラグメント候補を、すでに抽出されている対訳単語対を用いてフィルタリングすることにより、高精度に対訳フラグメントを抽出するシステムを提案した。日中コンパラブルコーパスで行われた実験の結果、提案システムが対訳フラグメントを正確に抽出し、これを利用することで翻訳の精度も向上することを確認した。
|