本年度は、文字画像のヒストグラムを介した文字の構造情報を活用する文字認識において、字体の変動やノイズを吸収するのに有効な標準パターンの作成法について研究し以下のような研究成果を挙げた。 1.文字画像の縦、横及び斜め(±45度)の各方向のヒストグラムの0‐1パターン表現において、同一字種のサイズやフォントの違う種々のサンプルについて横軸の各区間で、それぞれ、1の列の最大値のみ及び最小値のみで構成される二つの0‐1パターン表現からなる標準パターン(マックス・ミニ標準パターンと呼ぶ)を作成した。そして、未知入力パターンの1の列に基づいて候補字種を選択する場合には前者を用い、0の列に基づいて候補字種を選択する場合には後者を用いれば、標準パターン作成に用いたフォントや文字サイズについての字体の変動を完全に吸収することが可能となった。さらに、クラスタリングの手法を用いてフォントやサイズの違う同一字種のサンプルを字体のより近い文字どうしにクラス分けを行うことにより、候補字種を効率よく少数に絞ることを可能にした。 2.標準パターンのセットとしての辞書が大規模化した場合の高速化と高精度化の観点から、辞書自体のクラス分けを行いかつその各クラスについてそれに適した大分類及び細分類を可能とする新しい着想を得た。これは一般的には各字種ごとに複数個の標準パターンが必須となる状況においては極めて有用な着想であり、現在その具体的手法の開発を進めており、本研究で予定していた文字切出用辞書の作成の一部はこの手法に包含される見通しである。
|