2013 Fiscal Year Annual Research Report
高速・高度なパターン照合と高圧縮率とを実現するVF符号化の研究
Project/Area Number |
23700002
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Keywords | VF符号 / 文法圧縮 / 大規模データ / 透過的データ圧縮法 |
Research Abstract |
VF符号は,テキストの可変長な部分文字列に対して固定長の符号語を割り当てることで圧縮を行う圧縮法である.このような符号語が固定長であるデータ圧縮法は,高速なパターン照合を可能にする.これまでに,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発し,その改善に努めた.申請者らが提案したRe-pair-VF符号は,gzipを凌ぎ,bzip並みの圧縮率を達成しつつも,高速な圧縮・展開処理を行うことができる. 上述のRe-pair-VF符号は,基本的にはオフラインの処理アルゴリズムであり,また高速な圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった.この問題に対し,前年度までに,入力データを分割処理して分割されたブロック毎に圧縮を行う際,各ブロックで静的な共通辞書を用いるという工夫を実現した.本年度は,共有する辞書をブロック間で動的に構築する手法について研究・開発を行った.このことにより,途中で入力データの傾向が変化した場合にも適切な辞書構造を保つことが可能となり,全体の圧縮率が向上した. また,Re-pairアルゴリズムによる圧縮データに対して,元のデータ位置を指定した直接 的なアクセスを可能にする手法についても研究・開発を行った.通常,圧縮されたデータに対し,元のデータ位置を特定するには,前方から逐次的にデータを展開もしくは解析する必要がある.これに対し,符号語の切れ目を認識するビット列を完備辞書として保持することで,既存手法よりもコンパクトなデータ量を維持しつつ,高速な直接アクセスを実現することができた.
|
Research Products
(3 results)