2011 Fiscal Year Annual Research Report
単語・フレーズ・言語モデルを統合したフレーズ並び替えモデルに基づく統計的機械翻訳
Project/Area Number |
21300048
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 筑波大学, システム情報系, 教授 (40210562)
|
Co-Investigator(Kenkyū-buntansha) |
乾 孝司 筑波大学, システム情報系, 助教 (60397031)
|
Keywords | 多言語処理 / 人工知能 / 自然言語処理 / 並び変えモデル / 言語モデル / 統計的機械翻訳 |
Research Abstract |
最終年度にあたり、これまで考案したモデルの中で最も有望な手法に焦点を絞り改良と評価を行った。また、デコーダの速度向上手法を検討し、提案アルゴリズムを実装した。 まず、モデルに関しては、長距離のフレーズを並び替えるためのキーとなる機能語に着目し、機能語のパターンに応じて、近隣のフレーズが翻訳後にどこに移動するかを広い範囲でモデル化する手法を最終的に開発した。本手法で得られるルールは一般的な階層フレーズルールと互換性があり、学習時の工夫によって広範囲のフレーズ並び替えのパターンを効果的にルールに反映させている。このため、翻訳の実行時には一般に普及している階層フレーズデコーダを流用できる。開発した学習手法の概要は次の通りである。学習データとしての対訳文ペアに対する単語アラインメント結果のうち、原言語における機能語とそれに対応している目的言語の単語をマークする。マークされた単語によって分割されている部分文(正確には整合性を保ったまま取れる最大部分)を1つの特殊な単語と見なす。このように作成された単語アラインメントデータに対して、従来のフレーズ翻訳ルール抽出アルゴリズムを適用する。獲得されたフレーズ翻訳ルールにおける特殊な単語(部分文)を非終端記号と見なす事によって、階層フレーズルールが自動的に獲得されることになる。機能語以外の長い単語列を1つの特殊な単語と見なすため、従来よりもはるかに長距離に渡るフレーズの並び替えパターンを捉えることができる。翻訳実験によって、本モデルは長距離に渡るフレーズの並び替えが顕著に改善された。具体的には、従来の階層フレーズモデルのBLEU値28.5に対して、提案モデルはルール数が約半分でBLEU値28.9を達成する。 デコーダの速度改善については、仮説を組合わせて成長させる際に生じる言語モデルの再計算を削減することによって約30%の速度改善を達成した。
|