研究概要 |
多様な書式から文字を自動的に切り出し, 高速・高精度で活字及び手書き文字を認識するシステムの研究開発を行い, 次のような成果を得た. 1.自動文字切出 文字画像の縦又は横方向のヒストグラムに基づいて, 書式の大局的構造を把握し, その結果に基づく局所的構造解析によって分割・統合を行いながら, 最終的には個々の文字を精度よく, かつ高速に切り出す手法を開発した. 一方, 認識結果を併用することにより, 分離文字や接触した文字, ピッチの変動などに効果式に対処理する方法を考案した. 今後は高速化のための並列処理とより高精度化に向けて研究を進める. 2.活字認識 手書き文字認識で考案した特徴量をより扱い易くした方向線素特徴量を見い出し, これに基づく連想整合法を活字認識に適用し高精度の大分類を実現する手法を開発した. さらに, 大分類で選ばれた候補字種の正当性を特徴ベクトルのレベルで検証する簡易な構造解析法を考案し高速・高精度の活字認識を可能にした. この方法により, 字体の若干異なる三社のワープロ活字の漢字(JIS第一水準)2965(字種)×2サンプル/(字種)×3=17790サンプルに対し大分類を行った結果, 3位までの累積認識率100%, 1位認識率99.88%を得た. 更に上述の構造解析を適用し, 99.99%という高精度の1位認識率を得た. 3.手書き文字認識 第一段階の大分類を連想整合法で行い, 第二段階の大分類にマルチテンプレート法を適用することにより, 高精度で候補数を少数に絞る大分類の手法を開発した. 特に, 膨大な計算機実験により, マルチテンプレート法の性能を支配するクラスタリングについて, 各種の手法の優劣を明らかにした. 上述の2段階による大分類を, 手書き漢字データベースETム9-Bの759(字種)×80サンプル/(字種)=60720サンプに適用し4位までの累積認識率99%以上を得た.
|