研究概要 |
本研究では、以下に示すような方法で日本語文章の圧縮を試みた。 (1)日本語文章の特徴として、ひらがな、カタカナが比較的連続する傾向がある。EUC漢字コードの場合、ひらがなは上位バイトが(a4)_h,カタカナは上位バイトが(a5)_hとそれぞれ共通のものを使用している。そこで、このような連続部分の開始位置と終了位置を何らかの方法で表し、個々の仮名文字を下位バイトだけで表現することによって仮名文字を表すのに必要なバイト数を減少することを試みた。 (2)日本語は2バイト文字であるために、LZW(Lempel-Ziv-Welch)方式を用いて1バイト単位で最長一致する文字列を符号化していくと、文字の途中で区切ってしまったり、学習が遅くなり距離や長さの分布が広がってしまう場合が多い。そのため1バイトの文字のデータに比べて一般的に日本語データは圧縮率が悪いことが多い。そもそもLZW方式はいかに長い一致文字を探すかがポイントとなっている。そのために考えられることは、2バイト文字を途中で切ってしまわないようにする。また文法的に助詞を判断し、今後出てくると思われる文字列を前もって符号化テーブルに登録しておくことによって圧縮率を向上させた。 (3)我々は日本語文章を読むとき、ある程度まで文章を読むことによって経験的に未読の部分を予測することが可能である。これを利用して正しく予測されたテキストは除去することによって圧縮率の向上をはかる。このために、良く使われる文章や単語の辞書を作成した。 実際にこれらの方法を単独あるいは併用して日本語文章の圧縮のシミュレーションを行なった。その結果、多くの日本語テキストに対しての圧縮率を従来より向上させることができた。現在(3)の方法は実現は必ずしも十分ではないので今後さらに検討を行う予定である。
|