Project/Area Number |
06780296
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Tohoku University |
Principal Investigator |
大町 真一郎 東北大学, 情報処理教育センター, 助手 (30250856)
|
Project Period (FY) |
1994
|
Project Status |
Completed (Fiscal Year 1994)
|
Budget Amount *help |
¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1994: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | 文字認識 / 辞書 / マルチテンプレート / クラスタリング / マルチフォント |
Research Abstract |
本研究では文字認識の高速化・高精度化を目指し、総カテゴリー数が少なく高精度な辞書を作成する手法の考案を目的としている。本研究は主に、文字特徴量の統計的性質の解析、マルチテンプレート化の手法の検討、開発した手法の妥当性の検証の3つの柱から成っていた。以下、それぞれについて研究実績を述べる。 1.文字特徴量の統計的性質の解析 文字特徴量の分布として、同じ字種の集合内での分布(級内分布)と、字種間の分布、すなわち空間上で各字種の特徴量の重心(あるいは中心)がどのように分布しているか(級間変動)を、多変量統計解析の手法(主成分分析等)を用いて調べた。その結果文字特徴量について、(1)字種内の分布の広がりに対して字種間の分布はかなり密であること、(2)字種内の分布はかなり偏っていること、(3)領域が重なっている字種対は少ないこと、(4)字種ごとに主成分の方向が大きく異なること、等が分かった。 2.マルチテンプレート化の手法の検討 1.で明らかになった文字特徴量の分布状況を考慮し、マルチテンプレート化の手法を検討した。そして、まず字種ごとの学習パターンから得られた特徴量の集合をそれぞれ一つのカテゴリーとみなし、分割の必要のあるカテゴリーを分割していくことでマルチテンプレートの辞書を作成する手法を考案した。分割が必要かどうかは、文字特徴量の分布形状をもとに誤認識が生じる可能性があるか否かで判断する。ただし、辞書作成には、分割に用いるクラスタリング法が重要な役割を持つことが分かった。より高精度な辞書を作成できるクラスタリング法の検討は今後の課題である。 3.手法の妥当性の検証 2.で考案した手法の有効性を確かめるため、実際の文字パターンに適用し、辞書作成および認識の実験を行った。その結果、従来法と比較し、総カテゴリー数が同程度の場合本手法で作成した辞書を用いた方が高い認識率を得ることができた。
|