2017 Fiscal Year Annual Research Report
Stream Data Compression by Online Grammar Compression and VF Coding Algorithm
Project/Area Number |
15K00002
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | VF符号 / 文法圧縮 / 高階圧縮 / ラムダ式 / 大規模データ / 透過的データ圧縮法 |
Outline of Annual Research Achievements |
本研究の目的は,可変長-固定長符号化(VF符号化)による効率よいデータ圧縮法を開発することである.ここで「効率よい」とは,次の三つの観点で優れていることを指す.第一に,データ圧縮としての基本性能である圧縮率・処理速度・メモリ消費量について,高いレベルでバランスしていること.第二に,ストリーム型データに対して,逐次的(オンライン)に符号化が行えること.そして第三に,圧縮後のデータ自体が,後の情報検索やデータ解析を補助する索引能力を持つことである.これらを兼ね備えたデータ圧縮法を確立することで,増加し続けるストリーム型データをコンパクトに格納しつつ,効果的に活用できる情報基盤システムを構築する. 昨年度は,これまで開発してきたRe-Pair-VF符号の統合化とプログラムの公開を行うとともに,文法圧縮とは異なる,高階関数を用いた新しい視点からの圧縮法に関する研究に着手した.既存の高階圧縮の圧縮処理アルゴリズムは処理速度に一番の難点がある.高速に圧縮処理を行うためには,入力データから共通する部分構造をすばやく見つけ出し,ラムダ式として抽出しなければならない.既存手法では,まず入力データを直線状の木構造に変換し,その後,頻出するすべての可能な部分木を探索して,ラムダ計算の逆計算にあたる操作によって木構造をコンパクトにまとめていくという手順を取る.この手法の問題点は,探索すべき部分木の種類が組み合わせ的に増大してしまうことである. 本年度は,入力データの繰り返し部分がチャーチ数と呼ばれるラムダ式の整数表現として出現することに着目し,その変換を効率よく行うことで高速に対応するラムダ式を抽出するアルゴリズムを開発した.このアルゴリズムを既存手法に組み入れることで,全体の圧縮速度を改善することができる.
|
Research Products
(6 results)