ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせて、検索要求に適合する文書に順位を付けて出力する検索システムの構築・評価を行った。具体的には以下の2つのシステムの開発を行った。 1.すべての部分文字列をキーワードとして、Vector Spaceモデルを適用したシステム。この方法は、非常に多くのマッチングが必要であり、検索対象が制限されることが懸念されたが、Suffix Arrayとビタービアルゴリズムを併用する方法を開発したことにより、数十万件の検索対象に適用できることが明らかになった。 2.IDF(Inverse Document Frequency)と呼ばれるキーワードの重要度を示すメジャーを用い、入力検索要求を最も重要な部分文字列から構成されるように分割した後に、Vector Spaceモデルを適用するシステム。これは、上記1のシステムの近似手法と考えられ、若干の精度低下をきたすが、10倍程度高速な検索を行うことができた。この手法は辞書構築等の人手の作業は必要なく、検索対象の文書集合そのものを辞書として日本語を単語分割する方法であり、自然言語処理の観点からも興味深い分割結果が得られた。 公開の評価データであるNTCIR-1を用いて以上2つのシステムに加え、標準的な2つの手法を用いたシステムの検索精度評価を行った。標準的なシステムとは、Vector Spaceモデルの単位を単語あるいはバイグラムとしたシステムである。結果として、上記1の手法(0.34)、上記2の手法(0.31)、単語を単位とした手法(0.29)、バイグラムを単位とした手法(0.26)の順で精度がよいことが分かった(括弧の中は11ポイント平均適合度で、大きいほどよい結果である)。さらなる高速化が今後の課題である。
|