声認識や統計的機械翻訳システム等の言語モデルとして、現在、ngram言語モデルが広く利用されているが、このモデルは隣り合った単語の連鎖の確率に基づくモデルである。完全に語彙化しているモデルであるため、局所的な単語の連鎖を精密にモデル化する。しかし、ngram言語モデルは文の構造を無視しているため、中長距離の言語的特長を捉えられない。本研究では、この問題を解決するために、ngram言語モデルに依存構造を統合した生成的依存ngram言語モデルを提案した。すべての依存構造を考慮することによって、任意の次数の依存ngramの確率をEMアルゴリズムによって推定可能とするアルゴリズムを示した。
|