本研究では、自然言語処理において最も基本的な形態素解析(文中の単語、品詞や活用型など同定する)に関する確率的なルールをタグなしのコーパスから学習する方法を検討した。大きく2つの手法を提案し、評価実験を行った。 1つ目の手法は、本研究以前に既に提案されている1次マルコモデルを推定する方法と異なり、隠れマルコフモデルを推定する手法である。隠れマルコフモデルは2次マルコフモデルに近い性能を少ないパラメータで実現できるため、そのロバスト性において優れている。これまでの研究では実用的には1次マルコフモデルを推定できるのみであったが、より高性能なモデルをタグなしコーパスから推定することが可能となった。 また、タグなしコーパスから確率モデルを推定する場合ノズルが大きな問題となるが、本研究では2つ目の提案として信頼性係数を導入し、ノイズによる影響の軽減を試みた。これは、タグなしコーパスから抽出された可能な単語連鎖に信頼性を付与することによって、信頼性の低い連鎖によるノイズを低減する手法である。 以上2つの手法を実際の日本語形態素解析システムに応用し、評価を行った。この結果、信頼性係数はマルコフモデル、隠れマルコフモデルどちらのモデルに対してもタグなしコーパスから推定する場合に有効であることが分かった。また、信頼性係数を使わない状態で隠れマルコフモデルと1次マルコフモデルを比較した場合は、1次マルコフモデルの方が性能が高かった。しかし、信頼性係数が使われてある程度ノイズが押えられるとこの関係は逆転した。これは、隠れマルコフモデルは1次マルコフモデルよりもパラメータ数が多く精密なモデルであるため、ノイズに弱いためであると考えられる。
|