研究概要 |
今年度に行った研究によって得られた新たな知見等の成果の概要は次の通りである. 1.符号長の漸近特性について:本研究の符号化方式は,辞書の更新方法がLZMW符号と類似している.ただしLZMW符号がすべての辞書エントリがユニークであるのに対して,本符号化では同じ文字列が複数回登録される.したがって,本符号はLZMW符号の性能を上回るものではない.しかし,一方でアルゴリズムのもつ再帰性によりLZMW符号に比べて本符号の方が符号器/複号器の実装がはるかに容易である.2.アルゴリズムの符号化能率につてい:漸近的な特性が必ずしも優れていないにもかかわらず,符号化の早期の段階で長い系列が辞書に登録されるために,圧縮率の向上が急速である.したがって,有限長のデータ圧縮に対して有効な符号化アルゴリズムである.3.ポインタの符号化:辞書中のエントリを参照し,インディックスを符号化するための符号は,通常良く使われる整数の符号化では不十分なことが分かった.そのためには頻度のカウントによって,生起確立に応じた符号長の付与をしなけらばならない.実際の情報源確率は不明であるので,何らかの方法で確立分布の推定をする必要がある.本方式の場合には情報源アルファベットの大きさがデータ系列長の増大とともに大きくなるので,いわゆる「大きなアルファベットをもつ情報源のモデル化」の取扱いが必要である.近接した文字列間の生起確立の違いが小さい,滑らかな確立分布をもつとした場合について,その推定アルゴリズムを明らかにした.4.必要な辞書サイズについて:本符号は漸近的には最適ではないにもかかわらず,データ系列の長さが現実的なサイズの間は能率が良い.したがって辞書は,その大きさが一定以上になって圧縮能率が停滞した時点で,一旦リセットするのが実装上は最も能率の良いことが分かった.
|