• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2013 年度 実績報告書

高速・高度なパターン照合と高圧縮率とを実現するVF符号化の研究

研究課題

研究課題/領域番号 23700002
研究機関北海道大学

研究代表者

喜田 拓也  北海道大学, 情報科学研究科, 准教授 (70343316)

キーワードVF符号 / 文法圧縮 / 大規模データ / 透過的データ圧縮法
研究概要

VF符号は,テキストの可変長な部分文字列に対して固定長の符号語を割り当てることで圧縮を行う圧縮法である.このような符号語が固定長であるデータ圧縮法は,高速なパターン照合を可能にする.これまでに,文法変換に基づく圧縮手法であるRe-Pairアルゴリズムの出力を固定長符号化するRe-pair-VF符号を開発し,その改善に努めた.申請者らが提案したRe-pair-VF符号は,gzipを凌ぎ,bzip並みの圧縮率を達成しつつも,高速な圧縮・展開処理を行うことができる.
上述のRe-pair-VF符号は,基本的にはオフラインの処理アルゴリズムであり,また高速な圧縮処理を実現するために,元データの20倍程度のメモリを消費する.このことから,本手法をギガバイト以上の大きなデータに対して一括適用することは困難であった.この問題に対し,前年度までに,入力データを分割処理して分割されたブロック毎に圧縮を行う際,各ブロックで静的な共通辞書を用いるという工夫を実現した.本年度は,共有する辞書をブロック間で動的に構築する手法について研究・開発を行った.このことにより,途中で入力データの傾向が変化した場合にも適切な辞書構造を保つことが可能となり,全体の圧縮率が向上した.
また,Re-pairアルゴリズムによる圧縮データに対して,元のデータ位置を指定した直接
的なアクセスを可能にする手法についても研究・開発を行った.通常,圧縮されたデータに対し,元のデータ位置を特定するには,前方から逐次的にデータを展開もしくは解析する必要がある.これに対し,符号語の切れ目を認識するビット列を完備辞書として保持することで,既存手法よりもコンパクトなデータ量を維持しつつ,高速な直接アクセスを実現することができた.

  • 研究成果

    (3件)

すべて 2014 2013

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

  • [雑誌論文] A Variable-length-to-fixed-length Coding Method Using a Re-Pair Algorithm2013

    • 著者名/発表者名
      Satoshi Yoshida and Takuya Kida
    • 雑誌名

      IPSJ Transactions on Databases

      巻: Vol.6, No.4 ページ: 17-23

    • 査読あり
  • [学会発表] Direct Access to Variable-to-Fixed Length Codes with a Succinct Index2014

    • 著者名/発表者名
      Satoshi Yoshida, Hirohito Sasakawa, Kei Sekine, Takuya Kida
    • 学会等名
      Data Compression Conference 2014
    • 発表場所
      Snowbird, Utah, USA
    • 年月日
      20140326-20140328
  • [学会発表] Adaptive Dictionary Sharing Method for Re-Pair Algorithm2014

    • 著者名/発表者名
      Kei Sekine, Hirohito Sasakawa, Satoshi Yoshida, Takuya Kida
    • 学会等名
      Data Compression Conference 2014
    • 発表場所
      Snowbird, Utah, USA
    • 年月日
      20140326-20140328

URL: 

公開日: 2015-05-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi