Research Abstract |
本研究の目的は,圧縮率が高く,圧縮処理や圧縮パターン照合が高速に行えるデータ圧縮の方法を開発することである.平成24年度は,高性能なVF符号の開発と,その理論的および実験的な性能評価を行った.具体的には,次の研究を行った. (1)VMA符号に用いる分節木であるWA木のノード数の理論的な解析を行った.これにより,VMA符号のアルゴリズムの領域計算量の理論的解析が可能となった. (2)文法変換に基づく圧縮法であるRe-Pairを用いたVF符号上で,Re-Pairが動作している中で圧縮率が最良となるとなるようにする手法を開発した.また,開発した手法を実装し,実験的な性能評価を行った.その結果,この手法は,gzipを超える圧縮率と,STVF符号の2倍の圧縮速度,bzip2よりも高速な伸長が得られることがわかった.さらに,圧縮パターン照合については,自然言語テキストで,gzip上のパターン照合手法である,gzipを伸長してからパターン照合するプログラムである,zgrepよりも高速に行うことができることがわかった. (3)Re-Pairの消費メモリを削減するために,入力テキストを数十MBから数百MBのブロックに分割して,それぞれについてRe-Pairを使用して圧縮するVF符号を開発した.また,この場合,各辞書に重複する部分が存在すると考えられる.これに対して,入力テキストの一部分から,すべてのブロックで共有される辞書をあらかじめ作成しておく.各ブロックの処理をするときに,共有辞書部分の変換を行ってから,ブロック固有の辞書を作成して圧縮を行う手法を提案した.また,この手法を実装して,実験的な評価を行った.その結果,圧縮率がほとんど悪化することなく,メモリ消費を抑えることができた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
文法変換に基づく圧縮をVF符号に使用することにより,圧縮率を大幅に改善することができた.また,入力テキストをブロックに切り分けることで,大規模なテキストにも対応できるようになった.以上のことから,当初の計画をおおむね達成しているといえる.
|
Strategy for Future Research Activity |
今後も,VF符号の性能向上を行う.特に,入力テキストをブロックに切り分けた際に,高い圧縮率を達成する共有辞書の作成方法を開発する.また,VF符号上での効率よいパターン照合の手法を開発する.特に,複数のCPUを効率よく使用した並列パターン照合や,大量のパターンに対するパターン照合の手法を開発する.
|