研究概要 |
本研究の目的は,情報圧縮による逐次パターン照合処理の高速化技法を確立するとともに,そのテキストデータベースにおける有効性を実証することにある. 逐次処理の遅さの主な原因として,データの転送コストが考えられる.このコストを軽減するためには,情報圧縮の技術を用い,圧縮したデータを復号することなく探索する手法が有効である. 本研究では,テキストデータの標本として, ・遺伝子情報データ ・図書館データ ・英文テキストデータ の3種のものを取り扱うこととしている.平成9年度の研究では,主として英文テキストデータを対象にして,平成7年度および平成9年度に設計したアルゴリズムをさらに改良するための研究を行った.並列化による高速化パターン照合およびBPE符号による圧縮技法に関する研究の結果,つぎのことがわかった. 並列化によるパターン照合の高速化は,テキストを分割し,それぞれを並列に処理することで達成できるが,その際,分割したテキストを個々のプロセッサに配送するコストをできるだけ小さくすることが重要となる.このコストを小さくするために情報圧縮を用いればよいのであるが,ハフマン符号のような可変長符号を用いている場合には,テキストを分割するために,テキストを走査する必要が生じ,この走査は並列化できないという問題がある.BPE符号においては,固定長符号を用いるので、こうした問題を生ずることはなく,また英文テキストであれば,50%程度の高い圧縮率を達成できる.
|