2015 Fiscal Year Research-status Report
オンライン型文法圧縮とVF符号化アルゴリズムによるストリーム型データ圧縮
Project/Area Number |
15K00002
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | VF符号 / 文法圧縮 / 大規模データ / 透過的データ圧縮 |
Outline of Annual Research Achievements |
本研究の目的は,可変長-固定長符号化(VF符号化)による効率よいデータ圧縮法を開発することである.ここで「効率よい」とは,次の三つの観点で優れていることを指す.第一に,データ圧縮としての基本性能である圧縮率・処理速度・メモリ消費量について,高いレベルでバランスしていること.第二に,ストリーム型データに対して,逐次的(オンライン)に符号化が行えること.そして第三に,圧縮後のデータ自体が,後の情報検索やデータ解析を補助する索引能力を持つことである.これらを兼ね備えたデータ圧縮法を確立することで,増加し続けるストリーム型データをコンパクトに格納しつつ,効果的に活用できる情報基盤システムを構築する. これまでに,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発し,その改善に努めてきた.しかしながら,Re-pair-VF符号は,Re-Pairアルゴリズムと同様にオフラインの処理アルゴリズムであり,また入力データに対して線形時間での圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった. 本年度における研究の過程で,Re-Pairアルゴリズムと同等のオンライン的な文法変換処理を実現する新規なアイデアを得た.Re-PairアルゴリズムにLeft-Tall条件という制約を組み込むことで,通常では困難であったバッファリング処理による文法変換手続きが可能であることを発見し,これに基づく省メモリなデータ圧縮方式を実現することができた.実際,データの圧縮率,圧縮処理速度等をほとんど犠牲にすることなく,メモリ使用量を大幅に低減することに成功した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画では,まだ先の目標であったオンライン型の文法圧縮方法の実現について, 新規なアイデアによる優れた成果が得られたため.
|
Strategy for Future Research Activity |
本年度では,研究計画の「A.オンライン文法変換のVF符号化」について主に取り組み,新規なアイデアによる有望なデータ圧縮法の提案を行った.本提案手法は,Re-Pairアルゴリズムを改良したオンライン的な文法変換処理に基づいている.ただし,現状ではVF符号化との組み合わせを行っておらず,データ圧縮後のアクセス性については考慮していない.今後は提案手法によるVF符号化や,研究計画の「B.ブロック分割と辞書の共有」についての研究開発を推し進める.
|
Causes of Carryover |
次年度使用額となった208,946円についても2016年3月中に既に使用しているが,会計システム上,年度末の使用が反映されていないため.
|
Expenditure Plan for Carryover Budget |
既に使用済みである.
|
Research Products
(3 results)