研究課題
VF符号は,テキストの可変長な部分文字列に対して固定長の符号語を割り当てることで圧縮を行う圧縮法である.このような符号語が固定長であるデータ圧縮法は,高速なパターン照合を可能にする.これまでに,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発し,その改善に努めた.申請者らが提案したRe-pair-VF符号は,gzipを凌ぎ,bzip並みの圧縮率を達成しつつも,高速な圧縮・展開処理を行うことができる.上述のRe-pair-VF符号は,基本的にはオフラインの処理アルゴリズムであり,また高速な圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった.この問題に対し,前年度までに,入力データを分割処理して分割されたブロック毎に圧縮を行う際,各ブロックで静的な共通辞書を用いるという工夫を実現した.本年度は,共有する辞書をブロック間で動的に構築する手法について研究・開発を行った.このことにより,途中で入力データの傾向が変化した場合にも適切な辞書構造を保つことが可能となり,全体の圧縮率が向上した.また,Re-pairアルゴリズムによる圧縮データに対して,元のデータ位置を指定した直接的なアクセスを可能にする手法についても研究・開発を行った.通常,圧縮されたデータに対し,元のデータ位置を特定するには,前方から逐次的にデータを展開もしくは解析する必要がある.これに対し,符号語の切れ目を認識するビット列を完備辞書として保持することで,既存手法よりもコンパクトなデータ量を維持しつつ,高速な直接アクセスを実現することができた.
すべて 2014 2013
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)
IPSJ Transactions on Databases
巻: Vol.6, No.4 ページ: 17-23