• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1999 年度 実績報告書

多段階ベクトルを用いた高速文書検索アルゴリズムに関する研究

研究課題

研究課題/領域番号 11780310
研究機関徳島大学

研究代表者

泓田 正雄  徳島大学, 工学部, 助手 (10304552)

キーワード全文検索 / 文書データベース / 用例文 / 絞り込みアルゴリズム
研究概要

高速検索と絞り込み手法の核となる次のアルゴリズムの提案し,ソフトウェア開発を行った.
1.文番号ベクトルの構築
全用例に対する文番号を文番号ベクトルとして構成し,各索引に対する文番号列をこのベクトルで表現する.
2.文番号ベクトルの圧縮と多段階検索技法の提案
文番号の比較による絞り込みは,文番号ベクトルの効率的な論理積で実行できるが,このベクトルは非常に長く,しかもスパースであるので,多段階に圧縮するデータ構造を提案し,対応する検索法の提案
3.論理和・論理否定を用いての検索技法の提案
論理積を用いてのすべての索引を含む文章の検索だけでなく,論理和を用いて,複数の索引のどれかを含む文章の検索や,論理否定を用いての索引を含まない文章を検索できる検索法の提案
4.計算機シミュレーションによるプロトタイプシステム評価
計算機シミュレーションにより,ランダムな数を発生させて,約1億の用例に対する文番号ベクトルを生成し,本手法の実験を行い,様々な検索条件を指定して検索を行い,その時間を測定した.ソフトウェアの改善を実験により繰り返し,プログラムのさらなる高速化を行った.その結果,論理積を用いた検索では,従来の文番号列を単純に比較する手法より2倍から41倍高速になっていることを確認した.さらに,実験に加えて,提案アルゴリズムの理論的評価を行ない評価した.しかし,論理和による検索は論理積を用いた検索ほど,良い結果を得られなかったので,さらなる改良を行う必要がある.

URL: 

公開日: 2001-10-23   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi