研究課題/領域番号 |
15K00002
|
研究機関 | 北海道大学 |
研究代表者 |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | VF符号 / 文法圧縮 / 大規模データ / 透過的データ圧縮 |
研究実績の概要 |
本研究の目的は,可変長-固定長符号化(VF符号化)による効率よいデータ圧縮法を開発することである.ここで「効率よい」とは,次の三つの観点で優れていることを指す.第一に,データ圧縮としての基本性能である圧縮率・処理速度・メモリ消費量について,高いレベルでバランスしていること.第二に,ストリーム型データに対して,逐次的(オンライン)に符号化が行えること.そして第三に,圧縮後のデータ自体が,後の情報検索やデータ解析を補助する索引能力を持つことである.これらを兼ね備えたデータ圧縮法を確立することで,増加し続けるストリーム型データをコンパクトに格納しつつ,効果的に活用できる情報基盤システムを構築する. これまでに,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発し,その改善に努めてきた.しかしながら,Re-pair-VF符号は,Re-Pairアルゴリズムと同様にオフラインの処理アルゴリズムであり,また入力データに対して線形時間での圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった. 本年度における研究の過程で,Re-Pairアルゴリズムと同等のオンライン的な文法変換処理を実現する新規なアイデアを得た.Re-PairアルゴリズムにLeft-Tall条件という制約を組み込むことで,通常では困難であったバッファリング処理による文法変換手続きが可能であることを発見し,これに基づく省メモリなデータ圧縮方式を実現することができた.実際,データの圧縮率,圧縮処理速度等をほとんど犠牲にすることなく,メモリ使用量を大幅に低減することに成功した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の計画では,まだ先の目標であったオンライン型の文法圧縮方法の実現について, 新規なアイデアによる優れた成果が得られたため.
|
今後の研究の推進方策 |
本年度では,研究計画の「A.オンライン文法変換のVF符号化」について主に取り組み,新規なアイデアによる有望なデータ圧縮法の提案を行った.本提案手法は,Re-Pairアルゴリズムを改良したオンライン的な文法変換処理に基づいている.ただし,現状ではVF符号化との組み合わせを行っておらず,データ圧縮後のアクセス性については考慮していない.今後は提案手法によるVF符号化や,研究計画の「B.ブロック分割と辞書の共有」についての研究開発を推し進める.
|
次年度使用額が生じた理由 |
次年度使用額となった208,946円についても2016年3月中に既に使用しているが,会計システム上,年度末の使用が反映されていないため.
|
次年度使用額の使用計画 |
既に使用済みである.
|