研究概要 |
本研究は,パトリシアトライ構造から成る索引部を有する効率的な全文検索手法の考案を目的としていた.従来のパトリシアトライを用いた全文検索は,半無限部分文字列をパトリシアトライと呼ばれる2進木構造に登録していたが,キ-の登録数の増加に伴って,検引部のサイズも大幅に増加し,検索速度の低下を招いていた. そこで,本研究では上記の問題点を解決するため,本研究の実施計画として,まず1年目には,1.パトリシアトライの基本圧縮アルゴリズムの考案;2.フォールスドロップ(False Drop)を招かないキ-登録・検索アルゴリズムの考案;の2点を計画していた. まず,1に関してであるが,通常の2進木構造の圧縮手法としてはJongeらが提案したCB-treeが有名である.しかしながら,パトリシアトライは通常の2進木トライ構造から1本の枝しか持たない内部ノードを全て削除したトライ構造であるため,削除ノードに関する情報を保持できるように圧縮アルゴリズムを改良する必要がある.そこで,今回,研究代表者(獅々堀)はパトリシアトライに含まれる削除ノードをnodemapと呼ばれるコンパクトなビット列に圧縮するアルゴリズムを考案した.本手法を用いることにより,通常のCB-treeよりも40〜60%圧縮率を向上することができた. 次に,2に関しては,nodemapのビット値0の部分が各内部ノードを表現し,また,ビット値1の部分が各内部ノードに含まれる削除ノード数を表しているため,nodemapのビット値1の部分をスキップし,フォールスドロップを起こさないキ-登録及び検索を行うアルゴリズムを考案した. 本研究により,パトリシアトライの圧縮率を向上することができた.来年度は,本手法を組み込んだ全文検索エンジンを構築し,大規模文書データベースに対する実験評価を行う計画である.
|