昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。 (1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。 (2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。 以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。
|