研究概要 |
本研究は,整列変換型の無歪みデータ圧縮法であるブロックソート法と文脈ソート法について,理論的側面と実装技術開発の両面から検討を行ったものである.整列変換型のユニバーサル符号とは,圧縮対象であるデータ系列を整列に基づいて整数値の列に変換し,得られた整数列を適当な符号によって圧縮するものである.本研究では,独自に開発したプレフィクスリストというデータ構造を使って文脈ソート法を実装し,ユニバーサルデータ圧縮の従来の代表的モデルであるPPMとの比較を行った.その結果,適応的アルファベット分解という新しい概念で両手法が関係づけられることが判明した. 整列変換とは,次の入力記号の候補の集合に全順序関係を定義することである.通常,文脈同士の類似度に基づいて整列が行われる.しかし,文脈の類似度が自然に決定するのは半順序関係であり,これを全順序に変換するのは人工的な操作である.本研究では,半順序性を保存したままで符号化を行うモデルの提案を行った.半順序集合の符号化には確率的なモデルの導入が必要であり,そのために適応的アルファベット分解という概念を整備した.文脈ソート法を適応的アルファベット分解を使って再定式化し,それに確率モデルを組み合わせた結果,ブロックソート法やPPM法を上回る圧縮性能を得ることができた.また,これらの研究過程で,文脈ソート法,ブロックソート法,LZ77法などの全く異質のデータ圧縮法が文脈ソート法を介して密接に結びつくだけでなく,文脈表上のエントロピー推定という共通の機能を介して,相互に深く関係していることが判明した.
|