日本語で書かれた文書から形態素解析を用いて単語を切り出し、それらの単語の文書ごとの出現頻度データに対応分析を施し、単語や文書の類似度を表現する多次元空間(以降では概念空間と呼ぶ)を構成するシステムを作成した。この空間では、ある単語群が特定の文書に出現する比率が高い場合、逆に、ある文書群に特定の単語が出現する比率が高い場合、それらの単語群や文書群が近い距離に布置されるという性質を持つ。また、同時に、平均的な出現パターンを持つ単語や文書が原点近くに布置される。上記の説明より明らかなように、この概念空間では、単語の意味に関する情報を用いていないにもかかわらず、その単語の使われ方の偏りだけを用いて、関連が強い単語、関連が弱い単語の情報を保持している。したがって、多数の文書が存在しているときでも、機械的に構成することが可能である。 この概念空間の有効性を検証するため、フリー・キーワード方式による文書検索システムを試作した。これはユーザから自由にキーワード(群)を入力してもらい、概念空間内でそのキーワード群をベクトルに射影し、そのベクトルに射影したときに原点からの距離が遠く、かつキーワード群と同じ方向にある文書(群)を関連が強いと思われるとして提示するものである。実際に既存の文書から概念空間を構成し、幾つかのキーワード群を与えて、関連が強いと思われる文書を提示するという実験を行った。この結果、ほとんどの実験で、キーワード群と関連が強い文書群が得られるということが示された。また、検索対象となる文書に当該キーワード群が含まれていない場合でも、同様に検索が可能であるということも示された。これは、全文一致検索や、同意語・類義語を用いた検索では実現が困難である。比較的自由な書式、用語法で記述された雑多な文書を検索対象とするシステムへの応用が期待できる。
|