2008 Fiscal Year Annual Research Report
ベイズ統計学を利用した構文情報に基づく統計的機械翻訳モデルの開発
Project/Area Number |
19500114
|
Research Institution | University of Tsukuba |
Principal Investigator |
山本 幹雄 University of Tsukuba, 大学院・システム情報工学研究科, 教授 (40210562)
|
Keywords | 機械翻訳 / 機械学習 / ベイズ統計学 / 統計的機械翻訳 / 構文 |
Research Abstract |
昨年度は構文情報を利用した統計的機械翻訳の現状の問題点を明らかにするために、従来法に基づくシステムを試作し、様々な評価を行った。その結果、代表的な従来法である階層フレーズモデルは、ルールがヒットした場合は高性能な翻訳ができるが、ヒットする場合がかなり限定されている点が特に問題であることが分かった。本年度は昨年度の予備実験を元に、特に階層フレーズモデルからフレーズ順序の知識を分離することによる一般化手法と、階層フレーズの確率をベイズ統計学を用いて正確に推定する手法の検討を行った。 フレーズ順序知識の分離には、原言語側の単語を適用制約として、階層フレーズをフレーズ順序テンプレートとみなす手法を提案・開発した。これによって、任意の2つの原言語フレーズの並びを、目的言語側で順序的にそのままかあるいは交換するかを判断できる場合が増加する。階層フレーズのベイズ的なパラメータ手法としては、日本語一英語間のように単語の移動が比較的大きな言語ペアの翻訳において必要となる特別なルールを含む場合でも効率的に推定できる手法を開発した。 これらの成果によって新たに開発した統計的機械翻訳システムを用いて、競争型コンテストの一つである国立情報学研究所主催のNTCIR-7特許翻訳タスクに参加し、共通的/協調的評価基盤の上での性能評価を行った。様々な制約から、フレーズベースの最高性能のシステムには及ばなかったものの、共通的な評価データを用いた実験によって提案手法の有効性を示すことができた。
|