1997 Fiscal Year Annual Research Report
パトリシアトライを用いた効率的な全文検索法に関する研究
Project/Area Number |
09780387
|
Research Institution | The University of Tokushima |
Principal Investigator |
獅々堀 正幹 徳島大学, 工学部, 講師 (50274262)
|
Keywords | 全文検索 / パトリシアトライ / CB-tree / 2進木構造 / 情報検索 |
Research Abstract |
本研究は,パトリシアトライ構造から成る索引部を有する効率的な全文検索手法の考案を目的としていた.従来のパトリシアトライを用いた全文検索は,半無限部分文字列をパトリシアトライと呼ばれる2進木構造に登録していたが,キ-の登録数の増加に伴って,検引部のサイズも大幅に増加し,検索速度の低下を招いていた. そこで,本研究では上記の問題点を解決するため,本研究の実施計画として,まず1年目には,1.パトリシアトライの基本圧縮アルゴリズムの考案;2.フォールスドロップ(False Drop)を招かないキ-登録・検索アルゴリズムの考案;の2点を計画していた. まず,1に関してであるが,通常の2進木構造の圧縮手法としてはJongeらが提案したCB-treeが有名である.しかしながら,パトリシアトライは通常の2進木トライ構造から1本の枝しか持たない内部ノードを全て削除したトライ構造であるため,削除ノードに関する情報を保持できるように圧縮アルゴリズムを改良する必要がある.そこで,今回,研究代表者(獅々堀)はパトリシアトライに含まれる削除ノードをnodemapと呼ばれるコンパクトなビット列に圧縮するアルゴリズムを考案した.本手法を用いることにより,通常のCB-treeよりも40〜60%圧縮率を向上することができた. 次に,2に関しては,nodemapのビット値0の部分が各内部ノードを表現し,また,ビット値1の部分が各内部ノードに含まれる削除ノード数を表しているため,nodemapのビット値1の部分をスキップし,フォールスドロップを起こさないキ-登録及び検索を行うアルゴリズムを考案した. 本研究により,パトリシアトライの圧縮率を向上することができた.来年度は,本手法を組み込んだ全文検索エンジンを構築し,大規模文書データベースに対する実験評価を行う計画である.
|
Research Products
(6 results)
-
[Publications] Masami Shishibori: "An Algorithm to Allocate Diagrams Automatically on Document Formatting Systems." IEICE Transactions on Information and Systems. Vol.E80-D No.2. 259-273 (1997)
-
[Publications] Masami Shishibori: "An Order Searching Algorithm of Extensible Hashing" International Journal of Computer Mathematics. Vol.63 Nos.3+4. 179-201 (1997)
-
[Publications] Masami Shishibori: "The Design of a Compact Data Structure for Binary tries" Proceedings of the 17th International Conference on Computer Processing of Oriental Languages. Kowloon Hong Kong. 606-611 (1997)
-
[Publications] Masami Shishibori: "A Construction Method for the Index Represented by a Pointerless Patricia Trie" Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages. Tsukuba Japan. 24-30 (1997)
-
[Publications] Masami Shishibori: "An Efficient Compression Method for the Patricia Trie" Proceedings of 1997 IEEE International Conference on Systems,Man and Cybernetics. Florida U.S.A.415-420 (1997)
-
[Publications] Masami Shishibori: "Design of a Compact Data Structure for the Patricia Trie" IEICE Transactions on Information and Systems. (発表予定).