• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

高速・高度なパターン照合と高圧縮率とを実現するVF符号化の研究

Research Project

Project/Area Number 23700002
Research InstitutionHokkaido University

Principal Investigator

喜田 拓也  北海道大学, 情報科学研究科, 准教授 (70343316)

Project Period (FY) 2011-04-28 – 2014-03-31
Keywordsデータ圧縮 / VF符号 / 接尾辞木 / パターン照合
Research Abstract

本研究の目的は,圧縮率の高いVF符号を確立し,それを実現する効率良い符号化・復号化アルゴリズムを開発することである.それによって,大規模データに対する多様な検索要求を高速に処理するシステムの構築を目指す.そのため,申請者が2009年に提案したSTVF符号を元に,高速・高度な検索性能と高い圧縮率とを兼備する新しいデータ圧縮方式を実現する. STVF符号は,短く刈り込んだ接尾辞木を分節木として用いる圧縮方法で,圧縮対象となるテキストが自然言語のように,文脈がある場合(すなわち記憶のある情報源の場合)には高い圧縮率を達成できる符号である.しかしながら,gzipやbzip2など最新の圧縮方法と比較すれば,まだ圧縮率の点で劣っている.ここまでの改善手法では,未使用な符号語の割合を10~20%程度にしか抑えられず,これ以上の圧縮率改善には,根本的な発想の転換が必要である. 本年度は,上述の問題に対し,文法変換に基づくデータ圧縮法のアイデアを用い,Re-Pairアルゴリズムによって文法変換されたデータにVF符号を適用することで,データ圧縮率と圧縮速度の向上を図った.これにより,圧縮率においてgzipを上回り,圧縮速度においてSTVF符号の2倍の速度を達成することができた.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

文法変換に固定長符号化を施すという発想の転換により,当初の研究の方向性において期待していた成果以上の結果が得られた.

Strategy for Future Research Activity

平成23年度に得られた結果に基づいたより実用的なVF符号化を実現するとともに,それにより圧縮されたデータ上を高速に検索するための,高速・高度なパターン照合アルゴリズムについての研究を推進する. 一方で,積み残していたアイデアである,gzip同様の適応的なテキスト分割に基づいた1パスのVF符号化アルゴリズムについて研究開発を行う.このアイデアの実現を検討し,理論的・実際的に効率よいアルゴリズムを模索する.

Expenditure Plans for the Next FY Research Funding

平成23年度は,おおよそ予定通りに予算を執行した.しかしながら,年度末に資料整理のための事務用品を購入した際,納品が集計後となってしまい未使用額が発生した.こちらは既に納品済みでありその執行を終えている.

  • Research Products

    (3 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] Improving Parse Trees for Efficient VF Codes2012

    • Author(s)
      S. Yoshida, T. Uemura, T. Kida, et al.
    • Journal Title

      Journal of Information Processing

      Volume: Vol.20, No.1 Pages: 238-249

    • DOI

      10.2197/ipsjjip.20.238

    • Peer Reviewed
  • [Presentation] 効率よいVF符号化のための分節木を訓練する新手法2011

    • Author(s)
      吉田諭史,喜田拓也
    • Organizer
      第10回情報科学技術フォーラム
    • Place of Presentation
      函館(函館大学)
    • Year and Date
      2011年9月7日
  • [Presentation] 効率よいVF符号のためのMDL原理に基づく分節木の訓練手法2011

    • Author(s)
      吉田諭史,喜田拓也
    • Organizer
      情報処理学会 第152回 データベースシステム・第103回 情報基礎とアクセス技術 合同研究発表会
    • Place of Presentation
      京都(立命館大学)
    • Year and Date
      2011年8月3日

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi