本研究では、文字認識の高精度化のために有効なマルチテンプレートの辞書を作成する手法の開発を目指し、辞書複数化のための新たなクラスタリング手法を開発することを目的とする。そして、開発された手法を用いて、学習サンプルを与えたときに誤認識率を最小とするようなマルチテンプレートの辞書を作成するアルゴリズムを定式化する。 辞書の複数化のためのクラスタリングアルゴリズムを開発した。従来クラスタリングとはパターンをその類似性によって分類する目的で行われるものであるが、本研究では同一カテゴリー内のパターンを細分化し、他のカテゴリーのパターンと区別できるようなカテゴリーの組にすることが目的であるから、これまで提案されている手法では不適当であると考えられる。本研究ではこの点を踏まえ、マルチテンプレート辞書作成に適した新たなクラスタリング手法を開発し、これまでに開発されてきた様々なアルゴリズムと比較、検討した。 特に以下の二点について考慮した。 ・他のカテゴリーの分布をいかに考慮するか あるカテゴリーのパターンをクラスタリングするために、他のカテゴリーの情報も合わせ持つ必要がある。これをいかに持ち、クラスタリング時にどう反映させるかを検討した。 ・分割のしかた 本手法では、カテゴリー内のパターンが似ているかどうかで分割するのではなく、カテゴリー内のパターンの分布を忠実に表現できるように分割することが求められるため、文字パターンの分布を考慮した距離尺度としてマハラノビス距離を検討した。
|