2001 Fiscal Year Annual Research Report
文書量に依存しない高速n-gram全文検索法の実現と大規模文書への応用
Project/Area Number |
10480082
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
獅々掘 正幹 徳島大学, 工学部, 助教授 (50274262)
佐藤 隆士 大阪教育大学, 教育学部, 助教授 (20124117)
北 研二 徳島大学, 工学部, 教授 (10243734)
|
Keywords | 文書データベース / 検索手法 / キーワード検索 / 文書検索 |
Research Abstract |
本研究の目標は,postingsに対するベクトル表現を導入し,圧縮のための多段階圧縮アルゴリズムを考案することであり,postingsを従来法の約10%に圧縮し,実用規模文書データの評価試験を行なった。研究実施内容は次の通りである. 1.n-gram文字列索引の格納構造の照合機械の評価. 提案した動的手法の削除に関する処理が,低速であったので,その改善を行った.最終年度の改善率は25%であった。担当者は,青江である. 2.postingsに対する圧縮技法の実験による評価. Postingsの圧縮に提案した新しいベクトル表現のビット1の数の分布,さらに考案された多段階圧縮アルゴリズムの圧縮率を理論的解析で評価したので,実際の300MBの文書実験より、85%の改善が得られたことを評価試験で実証した.担当者は,獅々堀である. 3.部分文字列マッチの実現と検索性能の向上の評価. 前方一致のみならず,後方一致,中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立したので,実験により検索速度の性能を評価した。速度にたいしては、30%の改善率を得た.担当者は,佐藤である. 4.開発エンジンの実用規模テキストデータベースへの適応と評価. 1ギガバイト以上の実用規模テキストデータベースへの提案手法を適合し,徹底した有効性の評価と改善を継続したので,新聞,論文,ネット文書データなどの多彩なデータベースに対して構築できるかどうか評価した.担当者は,北である. 以上,全体として,文書量に依存しない高速全文検索が可能となることが分った。
|
Research Products
(5 results)
-
[Publications] M.Jung: "A Dynamic Construction Algorithm forthe Compact tree"Information Processing & Management. 38. 221-236 (2002)
-
[Publications] S, Lee: "Extraction of Field coherent passages"Information Processing Management. 38. 173-207 (2002)
-
[Publications] EL-Sayed Atlam: "Words Tendency Depending on Time-series Variation"Information Processing & Management. 38. 157-171 (2002)
-
[Publications] 森田和宏: "ダブル配列における動的更新の効率化アルゴリズム"情報処理学会論文誌. 42. 2229-2238 (2001)
-
[Publications] Y.Yamakawa: "A Method for Improving Full Text Search Using Signature Files"Computer Mathematics. 77. 73-88 (2001)