研究課題/領域番号 |
08458072
|
研究機関 | 東北大学 |
研究代表者 |
阿曽 弘具 東北大学, 大学院・工学研究科, 教授 (10005522)
|
研究分担者 |
後藤 英昭 東北大学, 情報処理教育センター, 助手 (40271879)
大町 真一郎 東北大学, 大学院・工学研究科, 助手 (30250856)
|
キーワード | 文書認識 / 文字認識 / 印刷文字認識 / 領域理解 / マルチテンプレート |
研究概要 |
本年度の研究では、当初の目的であった。完全自動文書認識システムを完成させるまでに至らなかったが、次の成果を得た。これらを基礎にして展開研究を計画している。 1.文字パターンの特徴量空間である196次元ベクトル空間において、各字種の特徴量の集まりを正2^N面体型特徴領域と2^N面体型特徴領域との共通部分として定め、字種間相互の特徴領域の重なりを調べた。2^N面体型特徴領域はマハラノビス距離による超球型特徴領域の近似であり、線形計画法を用いて重なりを調べるために導入した。調べた結果、1字種の特徴領域と重なる特徴領域を持つ字種数が平均79であることがわかった。これは、単純なマンハッタン距離を用いた正2^N面体型特徴領域だけによるものに較べて約1/5になっているが、まだ、重なりが大きいことを意味している。 2.文字の特徴領域の重なりが類似文字に起因することに着目し、類似文字であるかどうかの判定法を考え、類似文字間の識別法としてその相違部分を重視する方法を考案した。また、低品質文字の認識のため、動的重み付き単純類似度を考え、つぶれ度による文字品質の判定により、品質に応じた識別手法を適用することで、より高精度な認識ができることを明らかにした。 3.日本語文字列の生成確率モデルとして文字trigram-単語trigramの複合モデルを考え、これを用いて誤りを含む認識結果候補文字列からより正しいもの選択する手法を開発した。 4.文書レイアウト解析については、必ずしも長方形ではない文章ブロックを抽出する方法を考案し、実験により検証した。
|