2000 Fiscal Year Annual Research Report
多段階ベクトルを用いた高速文書検索アルゴリズムに関する研究
Project/Area Number |
11780310
|
Research Institution | The University of Tokushima |
Principal Investigator |
泓田 正雄 徳島大学, 工学部, 講師 (10304552)
|
Keywords | 全文検索 / 文書データベース / 用例文 / 絞り込みアルゴリズム |
Research Abstract |
論理和を用いた検索のアルゴリズムの考案と,11年度に提案した手法を実際の大規模文書データを用いて,試験・評価を行った. 1.大規模文書データの構築 日本電子化辞書研究所の文書ファイル,岩波書店の広辞苑辞書のテキストファイル,その他研究室で収集した約10年間の卒業研究,修士研究,博士研究の論文ファイルなどを約数百メガバイトを補助記憶に格納し,既に開発されている形態素解析システムを改良(文節で解析を行えるようにした),利用して,キーワードと対応する文番号列情報を収集した. 2.大規模文書データベースに対する文番号ベクトルの検討 11年度に開発した検索システムを大規模文書データベースに応用し,評価する.まず,抽出されたキーワードに対する文番号列の長さを測定し,文番号ベクトルの圧縮効果を確かめる.この確認により,文番号ベクトルを分割する最適なブロック長を決定した. 3.大規模文書データベースに対する検索と絞り込みの実験と評価 2.で決定されたブロック長で文番号ベクトルを多段階に圧縮して,検索と絞り込み時間の評価を,検索条件の数,分割された文番号ブロック長の転送回数,文番号列の長さをパラメータとして実施した. 4.従来の方法との比較と検討 従来の手法として,文番号列を逐次比較する手法と,文番号ベクトルの単純な論理演算を行う手法をインプリメントし,同じ大規模文書データベースの検索実験により,提案手法と比較した.
|
Research Products
(2 results)
-
[Publications] Masao Fuketa: "A Document Classification Method by using Field Association Words"International Journal of Information Sciences. 126. 57-70 (2000)
-
[Publications] Kazuhiro Morita: "Fast insertion methods of a double-array structure"Software Practice & Experience. 31・1. 43-65 (2001)