文字の構造に関する様々なパラメータを用いて、文字認識用辞書を小規模の多数のクラスに効率よく分類する方法について研究し、初期の目的を達成することができた。まず、文字の構造パラメータを抽出して、そのパラメータが辞書の分類に適しているか否かを判定する最適化問題を考案した。これにより種々の有用な構造パラメータの選択を可能とした。ついで、複数の構造パラメータを用いて辞書を自動的により規模の小さいクラスに分類していくアルゴリズムを考案すると共に誤分類を避ける統計的処理方法を導入した。これにより、例えば、JIS第一水準の3300余の文字(記号類を含む)を対象とする場合には、通常の文字認識精度より一桁高い分類精度で分類(クラス分け)された辞書の平均の規模を元の辞書の1/5程度に縮小することは容易にできる見通しを得た。誤分類を避けるために、グレイゾーンを設けてこの領域に入る字種については、分類された双方のクラスに共通に含まれるようにしている。このために、分類された辞書の平均の大きさが元の辞書の規模の1/5以下となるためには、分類された辞書の総数は64個程度となる。ただし、未知入力文字がこれらの辞書の一つに分類されるための計算量は、一回の距離計算(例えば、単純類似度計算)に比して遥かに少ない。したがって、本研究による辞書の分類法をパターン整合法を用いる認識方法に適用すれば、認識速度がほぼ(元の辞書の規模)/(分類された辞書の平均規模)倍早くなることが期待される。 なお、本研究で開発された辞書分類法は、国有特許として申請中であり、このため論文としての発表は相当後になる予定である。
|