研究分担者 |
来馬 孝治 沖電気工業(株), 画像通信技術部, 部長
篠原 克幸 工学院大学, 工学部, 講師 (40100309)
中村 納 工学院大学, 工学部, 講師 (70100336)
高橋 静昭 工学院大学, 工学部, 助教授 (90100304)
|
研究概要 |
標記研究課題において昭和63年度は英文文書,日本語文章を対象とした場合の単語一括処理に基づく,文書画像の符号化方式について検討した。本方式の実現に当って,次の点を考慮する必要がある。 (1)装置コストを低く抑えるという観点から辞書の小型化を図る。 (2)対象文書によって符号化効率が大幅にばらつかないよう工夫する。本方式の基本的考えは,英文文書に対しては(1)単語をその語構成(接頭語+語根+接尾語)に基づいて符号化する。これによって辞書の小型化を図る。(2)出現頻度が対象文書に強く依存すると考えられる単語に対しては,別にカレント辞書(一時登録用辞書)を設け,これによって符号化効率のばらつきを軽減する。さらに,(3)同一の単語が再び出現するまでの間隔がある範囲に限定されているという調査結果から,この性質を利用して符号語長を短縮するようにカレント辞書の構成を工夫する。という点にある。また,日本語文章に対しては(1)文章を文節単位へ分割する。(2)各文節を構文解析し,"単語","個別文字"に分解する。(3)(2)で抽出された単語を辞書を用いて認識するとともに,品詞の接続情報を基に,文節単位で符号長が最も短くなる符号語を決定する。(4)辞書未登録語の新しい単語が現れた場合は,その単語を一時登録用の辞書であるカレント辞書に逐次登録し,その単語が再び出現したときは,この仮登録語辞書を用いて認識し,対応する符号語を割り当てる,という点にある。5種類の図形領域を含むA4サイズの英文文書画像(単語総数:1606単語,文字総数:8417文字)と論評,新聞社説、広報文、エッセイ、科学技術文を含む合計13種類の日本語文章に対し実験を行った結果,文字単位の符号化に比べ英文に対しては約1.9倍,日本語に対しては約1.90〜2.40倍の圧縮比が得られ,認識通信において十分通用可能であるとの見通しを得た。
|