本年度(H9年度)は、文字レベルと単語レベルの確率モデルの融合手法として、未知語に強いと考えられる(拡張)文字連鎖確率モデルによる単語分割を行った後に、単語レベルの確率モデルによって品詞付与を行なう最も基本的なシステムを検討・改良した。ここで問題となったのは、単語レベルの確率モデル推定のために使用したEDRコーパスが15品詞しか品詞情報を持たないため、十分な精度の確率モデルを構築できなかったことである。このため、少ない品詞しか持たないコーパスからでも精度の高いモデルを構築するために確率モデルの一種である隠れマルコフモデルを改良した。改良点は、隠れマルコフモデルの各状態から複数の品詞を出力できるした点であり、自動的に品詞の細分化を行なうモデルである。これによって、正しく単語分割されている日本語文に対する品詞付与性能を単純な品詞トライグラムモデルの96.4%の適合率(close実験)を、状態数128の隠れマルコフモデルで98.4%まで高めることができた。 上記融合手法では、未知語に対する分割処理を文字レベルの確率モデルで行なうため、文字レベルの確率モデルの頑健性が問題となる。これを解決するためにHerman Neyの提案しているleaving-one-out methodによる最適クラスタ評価基準に基づくクラスタリング・システムを構築し、評価実験を行った。形態素情報を付加した拡張文字約6000種を800クラスに分割した場合、拡張文字を直接用いた連鎖確率モデルに比してサイズは約2/3となるが、ほぼ等価な形態素解析(単語分割)性能を示すことができた。確率モデルのサイズが小さいということはモデルのパラメータ数がすくない、すなわち頑健性が高い可能性が高い。来年度(H10年度)は、これらの改良された基本システムを元に未知語を含む文に対する形態素解析システムの検討・試作・評価を行なう。
|