研究課題/領域番号 |
23700002
|
研究機関 | 北海道大学 |
研究代表者 |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
キーワード | VF符号 / 文法圧縮 / 大規模データ / 透過的データ圧縮法 |
研究概要 |
本研究の目的は,圧縮率の良いVF符号を確立し,それを実現する効率よい符号化・復号アルゴリズムを開発することである.VF符号は,符号語が固定長であるため,圧縮後のデータの取り扱いが容易である.一方で,これまでに圧縮効率の良いVF圧縮法は知られていなかった.申請者らは,VF符号の枠組みでありながら高い圧縮率を得る方法を見出したが,圧縮速度の低下という問題があった. これに対し異なるアプローチについて検討を行い,その結果,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発するに至った.これにより,gzipを凌ぎ,bzip並みの圧縮率を達成しつつも,高速な圧縮・展開処理が行えるようになった. 本年度は,上述のRe-pair-VF符号の改善に取り組んだ.Re-pair-VF符号は,Re-pairアルゴリズムに基づいた手法であるため,Re-pairアルゴリズムの制約を受ける.すなわち,基本的にはオフラインの処理アルゴリズムであり,また(入力データに対して線形時間での)高速な圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった.よって,巨大なデータに対するRe-pair-VF符号化の効率よい手法について研究を進めた.具体的には,入力データを分割処理し,分割されたブロック毎に圧縮を行うのであるが,その際に,各ブロックで共通の辞書を用いるという工夫を実現した.このことにより,大規模なデータに対しても,現実的な圧縮時間でgzipを凌ぐ非常に良好な圧縮率を得ることに成功した. また,提案したRe-pair-VF符号上でのパターン照合アルゴリズムを実現し,従来法(zgrep等)と比較実験を行った結果,2倍程度の速度向上を達成した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
大規模データに適用するための方針を立て,およそ想定通りの圧縮率の改善を達成できたため.また,高速なパターン照合アルゴリズムの実現に関しても,期待どおりの結果が得られたため.
|
今後の研究の推進方策 |
平成24年度では,提案手法の大規模データへの適用のための改善に主に取り組んだ.提案したRe-pair-VF法は,Re-pairアルゴリズムと呼ばれる文法変換に基づいた手法であるため,入力データ長に対して比例した時間で高速な処理が行えるものの,メモリ上に確保できる分量(バッファ分)のテキストしか一度には扱えないオフラインアルゴリズムである.したがって,gzip同様の適応的なテキスト分割に基づいた1パスのVF符号化アルゴリズムの開発が本年度の研究課題の主たるものである.
|
次年度の研究費の使用計画 |
該当なし
|