• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

日本語の特徴を利用した和文テキストの効率的な圧縮方式に関する研究

研究課題

研究課題/領域番号 05750366
研究種目

奨励研究(A)

配分区分補助金
研究分野 情報通信工学
研究機関東京理科大学

研究代表者

伊丹 誠  東京理科大学, 基礎工学部・電子応用工学科, 講師 (70212983)

研究期間 (年度) 1993
研究課題ステータス 完了 (1993年度)
配分額 *注記
900千円 (直接経費: 900千円)
1993年度: 900千円 (直接経費: 900千円)
キーワードデータ圧縮 / 和文テキスト / LZW法 / 2バイト文字 / テキスト予測
研究概要

本研究では、以下に示すような方法で日本語文章の圧縮を試みた。
(1)日本語文章の特徴として、ひらがな、カタカナが比較的連続する傾向がある。EUC漢字コードの場合、ひらがなは上位バイトが(a4)_h,カタカナは上位バイトが(a5)_hとそれぞれ共通のものを使用している。そこで、このような連続部分の開始位置と終了位置を何らかの方法で表し、個々の仮名文字を下位バイトだけで表現することによって仮名文字を表すのに必要なバイト数を減少することを試みた。
(2)日本語は2バイト文字であるために、LZW(Lempel-Ziv-Welch)方式を用いて1バイト単位で最長一致する文字列を符号化していくと、文字の途中で区切ってしまったり、学習が遅くなり距離や長さの分布が広がってしまう場合が多い。そのため1バイトの文字のデータに比べて一般的に日本語データは圧縮率が悪いことが多い。そもそもLZW方式はいかに長い一致文字を探すかがポイントとなっている。そのために考えられることは、2バイト文字を途中で切ってしまわないようにする。また文法的に助詞を判断し、今後出てくると思われる文字列を前もって符号化テーブルに登録しておくことによって圧縮率を向上させた。
(3)我々は日本語文章を読むとき、ある程度まで文章を読むことによって経験的に未読の部分を予測することが可能である。これを利用して正しく予測されたテキストは除去することによって圧縮率の向上をはかる。このために、良く使われる文章や単語の辞書を作成した。
実際にこれらの方法を単独あるいは併用して日本語文章の圧縮のシミュレーションを行なった。その結果、多くの日本語テキストに対しての圧縮率を従来より向上させることができた。現在(3)の方法は実現は必ずしも十分ではないので今後さらに検討を行う予定である。

報告書

(1件)
  • 1993 実績報告書

URL: 

公開日: 1993-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi