2011 Fiscal Year Research-status Report
高速・高度なパターン照合と高圧縮率とを実現するVF符号化の研究
Project/Area Number |
23700002
|
Research Institution | Hokkaido University |
Principal Investigator |
喜田 拓也 北海道大学, 情報科学研究科, 准教授 (70343316)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | データ圧縮 / VF符号 / 接尾辞木 / パターン照合 |
Research Abstract |
本研究の目的は,圧縮率の高いVF符号を確立し,それを実現する効率良い符号化・復号化アルゴリズムを開発することである.それによって,大規模データに対する多様な検索要求を高速に処理するシステムの構築を目指す.そのため,申請者が2009年に提案したSTVF符号を元に,高速・高度な検索性能と高い圧縮率とを兼備する新しいデータ圧縮方式を実現する. STVF符号は,短く刈り込んだ接尾辞木を分節木として用いる圧縮方法で,圧縮対象となるテキストが自然言語のように,文脈がある場合(すなわち記憶のある情報源の場合)には高い圧縮率を達成できる符号である.しかしながら,gzipやbzip2など最新の圧縮方法と比較すれば,まだ圧縮率の点で劣っている.ここまでの改善手法では,未使用な符号語の割合を10~20%程度にしか抑えられず,これ以上の圧縮率改善には,根本的な発想の転換が必要である. 本年度は,上述の問題に対し,文法変換に基づくデータ圧縮法のアイデアを用い,Re-Pairアルゴリズムによって文法変換されたデータにVF符号を適用することで,データ圧縮率と圧縮速度の向上を図った.これにより,圧縮率においてgzipを上回り,圧縮速度においてSTVF符号の2倍の速度を達成することができた.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
文法変換に固定長符号化を施すという発想の転換により,当初の研究の方向性において期待していた成果以上の結果が得られた.
|
Strategy for Future Research Activity |
平成23年度に得られた結果に基づいたより実用的なVF符号化を実現するとともに,それにより圧縮されたデータ上を高速に検索するための,高速・高度なパターン照合アルゴリズムについての研究を推進する. 一方で,積み残していたアイデアである,gzip同様の適応的なテキスト分割に基づいた1パスのVF符号化アルゴリズムについて研究開発を行う.このアイデアの実現を検討し,理論的・実際的に効率よいアルゴリズムを模索する.
|
Expenditure Plans for the Next FY Research Funding |
平成23年度は,おおよそ予定通りに予算を執行した.しかしながら,年度末に資料整理のための事務用品を購入した際,納品が集計後となってしまい未使用額が発生した.こちらは既に納品済みでありその執行を終えている.
|
Research Products
(3 results)