研究概要 |
本研究の目標は,postingsに対するベクトル表現を導入し,圧縮のための多段階圧縮アルゴリズムを考案することであり,postingsを従来法の約10%に圧縮するための計画を立案し,最終年度の研究実施内容は次の通りである. 1.n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の改善. 平成10、11,12年度で提案した動的手法の削除に関する処理が,低速であるので,その改善を行った.最終年度の改善率は25%であった。担当者は,青江である. 2.postingsに対する圧縮技法の提案と実験による評価. 平成11,12年度は,postingsの圧縮に提案した新しいベクトル表現のビット1の数の分布,さらに考案された多段階圧縮アルゴリズムの圧縮率を理論的解析で評価したので,その実験により、85%の改善を実証した.担当者は,獅々堀である. 3.部分文字列マッチの実現と検索性能の向上 平成11,12年度は,前方一致のみならず,後方一致,中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し,実験により検索速度の性能を評価したが,速度を改善し、30%の改善率を得た.担当者は,佐藤である. 4.開発エンジンの実用規模テキストデータベースへの適応と評価. 1ギガバイト以上の実用規模テキストデータベースへの提案手法を適合し,徹底した有効性の評価と改善を継続しており、特に新聞データなどの500MBデータベースが構築できた.全体として,文書量に依存しない高速全文検索が可能となった。担当者は,北である.
|