1999 Fiscal Year Annual Research Report
多段階ベクトルを用いた高速文書検索アルゴリズムに関する研究
Project/Area Number |
11780310
|
Research Institution | The University of Tokushima |
Principal Investigator |
泓田 正雄 徳島大学, 工学部, 助手 (10304552)
|
Keywords | 全文検索 / 文書データベース / 用例文 / 絞り込みアルゴリズム |
Research Abstract |
高速検索と絞り込み手法の核となる次のアルゴリズムの提案し,ソフトウェア開発を行った. 1.文番号ベクトルの構築 全用例に対する文番号を文番号ベクトルとして構成し,各索引に対する文番号列をこのベクトルで表現する. 2.文番号ベクトルの圧縮と多段階検索技法の提案 文番号の比較による絞り込みは,文番号ベクトルの効率的な論理積で実行できるが,このベクトルは非常に長く,しかもスパースであるので,多段階に圧縮するデータ構造を提案し,対応する検索法の提案 3.論理和・論理否定を用いての検索技法の提案 論理積を用いてのすべての索引を含む文章の検索だけでなく,論理和を用いて,複数の索引のどれかを含む文章の検索や,論理否定を用いての索引を含まない文章を検索できる検索法の提案 4.計算機シミュレーションによるプロトタイプシステム評価 計算機シミュレーションにより,ランダムな数を発生させて,約1億の用例に対する文番号ベクトルを生成し,本手法の実験を行い,様々な検索条件を指定して検索を行い,その時間を測定した.ソフトウェアの改善を実験により繰り返し,プログラムのさらなる高速化を行った.その結果,論理積を用いた検索では,従来の文番号列を単純に比較する手法より2倍から41倍高速になっていることを確認した.さらに,実験に加えて,提案アルゴリズムの理論的評価を行ない評価した.しかし,論理和による検索は論理積を用いた検索ほど,良い結果を得られなかったので,さらなる改良を行う必要がある.
|