本年度は、連続筆記体で書かれた英単語の切り出し・認識・単語処理を行った。 1.対象データ:ニューヨーク州立大学から提供されている郵便書状宛名書きデータを入手し、本年度購入した磁気ディスクアレイに格納して実験に使用した。本年度は、このデータのうち、連続筆記体で書かれたアメリカ州名・市名単語について認識を行った。 2.文字切り出し:地名単語の画像を二値化し、輪郭解析によって複数の切断候補点を検出した。 3.文字認識:切断候補点において単語を分割し、2個の候補点の組み合せによって区切られる部分を1文字と見なして、文字認識を行った。認識手法としては、ニューラル・ネットワークを用いる方法と、方向性パターンマッチング法とを比較したが、今回は方向性パターンマッチング法を使用した。認識部においては、類似度の高い候補文字5個を出力した。 4.単語認識:切断候補点において分割した複数の文字パターンに関する候補文字を統合し、単語辞書と照合することによって、州名・市名として成立する単語を形成するような候補文字の組み合せを与える切断候補点ならびに認識結果を採用した。その結果、筆記体英単語に対して、高い単語認識率が得られた。
|