本研究では、従来のngramモデルにおける文の直線的な分解を、文の依存構造に沿った分岐的な分解に変更することにより、文の構造を同時にモデル化する手法を開発した。 構造をngramによってモデル化するために分岐箇所をマークする特別な記号を導入し、この記号を単語と同じように扱うことでシンプルかつ強力なモデルを提案した。パラメータ推定方法としては、従来から知られている単語ペアの確率に基づく手法を、一般的なngramに拡張したEMアルゴリズムを開発した。 評価実験は、訓練データとして特許文書テキストを利用し、言語モデルの理論的な指標であるパープレキシティを測定するとともに、機械翻訳と構文解析に応用し、提案モデルの性能を評価した。パープレキシティの評価では、提案モデルはngramの次数が大きくなるに従って、順調に性能が高くなった。しかし、従来のngramモデルを凌駕するには至らなかった。これは、提案手法がすべての依存構造で周辺化した確率を用いているためであり、ほとんどありえない多くの構造をもモデルで考慮していることが原因である。機械翻訳への応用では、従来のngramモデルよりも提案モデルを用いた方が高い性能を達成した(BLUE評価指標で26.2が26.7へと0.5ポイント向上した)。機械翻訳への応用時には、翻訳中の仮説として1つの依存構造だけを用いるため、提案モデルの利点が活きていると思われる。また、構文解析への応用では、既存の依存構造解析器を教師とした訓練を行い、教師を用いずに提案モデルだけで構造解析を行った。教師との一致率は80%となり、本提案モデルによって依存構造解析ができる可能性を示すことができた。
|