研究概要 |
日本語で使用される文字は、様々な字体を考慮すると、JIS第一水準のみでも標準パターンの総数はゆうに1万字を超える。そこで、認識の対象とする文字全体を文字の構造情報を用いて、先ず数百字程度の大きさのクラスに分類し、ついで分類された各クラスの特性に適した標準パターンの作成と中分類・細分類することにより、確認速度及び精度を飛躍的に進展させるという方針のもとに研究を進めた。 (1)文字画像のヒストグラムを利用したノイズに強い構造情報として、縦または横の顕著な線分を持たず斜めの線分が主体となる文字の分類ができた。これにより全字種を4個のクラスの分類することが可能となった。 (2)文字画像の潰れは、縦及び横方向のヒストグラムの谷を埋めることに着目しいて、大部分が潰れの顕著な文字からなるクラスとその他のクラスに分類することを可能にした。これにより潰れも文字に重点を置いた認識手法を有効に活用することができるようになった。 (3)縦及び横方向のヒストグラムの横軸を2等分して得られる4個の領域のそれぞれにおけるヒストグラムのピークの有無により、全字種を16個のクラス分類する実験を行い、その有用性についての見透視を得た。これにより、全字種を数百程度の大きさのクラスに分類することが、より現実的なものとなってきた。 以上が平成8年度の研究実績の概要である。平成9年度はこれを基にして,飛躍的高速高精度のプロトタイプを実現する予定である。
|