研究概要 |
本研究では,文字認識用辞書のテンプレート複数化のための新たなクラスタリング手法を開発することを目的としている.本研究は主に,クラスタリング手法の開発,開発した手法の妥当性の検証の2つの柱から成っていた.以下,それぞれについて研究実績を述べる. 1.クラスタリング手法の開発 従来クラスタリングとはパターンをその類似性によって分類する目的で行われるものである.本研究では同一カテゴリー内のパターンを細分化し,他のカテゴリーのパターンと区別できるような複数のクラスタに分割することが目的であり,従来法をそのまま用いたのでは目的とするクラスタ構成を得ることはできない.本研究ではこの点を踏まえ,テンプレート複数化のための新しいクラスタリングアルゴリズムについて検討した. 具体的には,まずサンプルパターンの集合を主成分分析し,固有値の大きい軸上でサンプルパターンをこの線分上に投影し,主成分軸上における重心の位置で分割してそれぞれにおいて分布形状を表すパラメータを求める.そして,カテゴリー間分布を表す指標としてカテゴリーの重心間を結ぶ線分を用い,あるカテゴリーの領域の端点と各カテゴリーの重心の距離によって誤認識が生じるかどうかを判断し,誤認識が生じると判断された場合にカテゴリー内のサンプルパターンを分割して2つのクラスタにする.これを繰り返すことにより,最終的にサンプルパターンから推定した分布形状のみからは誤認識が生じないようなクラスタ構成とする.そして,各クラスタごとに代表ベクトルを作成し,認識用の辞書とする. 2.手法の妥当性の検証 1.で考案した手法の有効性を確かめるため,実際の文字パターンに適用し,辞書作成および認識の実験を行った.その結果,従来法と比較し,総カテゴリー数が同程度の場合本手法で作成した辞書を用いた方が高い認識率を得ることができた.
|