研究概要 |
本研究の目的は、情報圧縮による逐次パターン照合処理の高速化技法を確立するとともに,そのテキストデータベースにおける有効性を実証することにある. 逐次処理の遅さの主な原因として,データの転送コストが考えられる.このコストを軽減するためには,情報圧縮の技術を用い,圧縮したデータを復号することなく探索する手法が有効である. 本研究では,テキストデータの標本として, ・遺伝子情報データ ・図書館データ ・英文テキストデータ の3種のものを取り扱うこととしている.平成7年度の研究では,主として日本語テキストを含む図書館データを対象にした. 日本語テキストは,字種が多いため符号の複雑さやパターン照合アルゴリズムに必要なメモリ量を減らす工夫が必要である.符号を単純化すると圧縮効率が下がるので,漢字・かな・英数字などの字種の生起特性を考慮して,単純だが効率のよい符号を設計し,さらにパターン照合機械へ組み込む符号中の冗長さを除去して必要なメモリ量を減らすアルゴリズムを開発した.
|