1997 Fiscal Year Annual Research Report
Project/Area Number |
09650404
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
伊藤 秀一 電気通信大学, 大学院・情報システム学研究科, 教授 (00017352)
|
Co-Investigator(Kenkyū-buntansha) |
橋本 猛 電気通信大学, 電気通信学部, 助教授 (10142308)
|
Keywords | 無歪みデータ圧縮 / パターン照合 / Lempel-Ziv / 2文字組 / アルゴリズム / 逐次符号化 / 再帰アルゴリズム |
Research Abstract |
今年度に行なった研究によって得られた新たな知見等の成果の概要は次の通りである. 1.符号長の漸近特性について 本研究の符号化方式は,辞書の更新方法がLZMW符号と類似している.そのためにまずLZMW符号の符号長について計算をした.その結果,任意の定常エルゴード情報源に対する平均符号長の上界として,2H(X)を得た.この上界は必ずしもタイトではないので,さらに検討が必要である. 2.アルゴリズムの符号化能率についての検討 本符号ではLZMWとは異なり,同じ文字列が複数の区切り方で辞書に登録されることになる.この確率を理論的に求めるのは難しいので,シミュレーションにより調べて見た.その結果問題となるようなケースの事例は極めて少数であることが分かり,応用で使われる有限長の系列での問題は無視し得る程度であることが分かった. 3.シミュレーションの結果 University of CalgaryのText Compression Corpusのファイルに対する圧縮実験を行なった.その結果LZWなどのLZ78系のアルゴリズムの中では圧縮率の点で優れた方式であることが分かった.とくに長い文字列が早い段階で辞書に挿入されることから,圧縮率を良くするのに効果的である.今後は,更に長い系列についてシミュレーションを行なった上で漸近的に本方式はLZMWと同様に2H(X)までにしか符号語長の圧縮が出来ないかどうかを実験的に観察したい. 4.ポインタの符号化 単純に辞書中のインデックスだけで符号化したのでは2H(X)を下回る上界が得られそうにないので,生起数のカウントをしたり,統計を集めてモデル化するなどの手法が必要になると思われることが分かった.
|