高精度文字認識のためのカテゴリー間分布を考慮したクラスタリング手法に関する研究

Research Project

Project/Area Number	08780323
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Tohoku University
Principal Investigator	大町真一郎東北大学, 工学部, 助手 (30250856)
Project Period (FY)	1996
Project Status	Completed (Fiscal Year 1996)
Budget Amount *help	¥900,000 (Direct Cost: ¥900,000) Fiscal Year 1996: ¥900,000 (Direct Cost: ¥900,000)
Keywords	文字認識 / クラスタリング / マルチテンプレート / カテゴリー間分布
Research Abstract	本研究では,文字認識用辞書のテンプレート複数化のための新たなクラスタリング手法を開発することを目的としている.本研究は主に,クラスタリング手法の開発,開発した手法の妥当性の検証の2つの柱から成っていた.以下,それぞれについて研究実績を述べる. 1.クラスタリング手法の開発従来クラスタリングとはパターンをその類似性によって分類する目的で行われるものである.本研究では同一カテゴリー内のパターンを細分化し,他のカテゴリーのパターンと区別できるような複数のクラスタに分割することが目的であり,従来法をそのまま用いたのでは目的とするクラスタ構成を得ることはできない.本研究ではこの点を踏まえ,テンプレート複数化のための新しいクラスタリングアルゴリズムについて検討した. 具体的には,まずサンプルパターンの集合を主成分分析し,固有値の大きい軸上でサンプルパターンをこの線分上に投影し,主成分軸上における重心の位置で分割してそれぞれにおいて分布形状を表すパラメータを求める.そして,カテゴリー間分布を表す指標としてカテゴリーの重心間を結ぶ線分を用い,あるカテゴリーの領域の端点と各カテゴリーの重心の距離によって誤認識が生じるかどうかを判断し,誤認識が生じると判断された場合にカテゴリー内のサンプルパターンを分割して2つのクラスタにする.これを繰り返すことにより,最終的にサンプルパターンから推定した分布形状のみからは誤認識が生じないようなクラスタ構成とする.そして,各クラスタごとに代表ベクトルを作成し,認識用の辞書とする. 2.手法の妥当性の検証 1.で考案した手法の有効性を確かめるため,実際の文字パターンに適用し,辞書作成および認識の実験を行った.その結果,従来法と比較し,総カテゴリー数が同程度の場合本手法で作成した辞書を用いた方が高い認識率を得ることができた.

Report

(1 results)

1996 Annual Research Report