• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

1997 Fiscal Year Annual Research Report

文書認識の完全自動化

Research Project

Project/Area Number 08458072
Research InstitutionTohoku University

Principal Investigator

阿曽 弘具  東北大学, 大学院・工学研究科, 教授 (10005522)

Co-Investigator(Kenkyū-buntansha) 後藤 英昭  東北大学, 情報処理教育センター, 助手 (40271879)
大町 真一郎  東北大学, 大学院・工学研究科, 助手 (30250856)
Keywords文書認識 / 文字認識 / 印刷文字認識 / 領域理解 / マルチテンプレート
Research Abstract

本年度の研究では、当初の目的であった。完全自動文書認識システムを完成させるまでに至らなかったが、次の成果を得た。これらを基礎にして展開研究を計画している。
1.文字パターンの特徴量空間である196次元ベクトル空間において、各字種の特徴量の集まりを正2^N面体型特徴領域と2^N面体型特徴領域との共通部分として定め、字種間相互の特徴領域の重なりを調べた。2^N面体型特徴領域はマハラノビス距離による超球型特徴領域の近似であり、線形計画法を用いて重なりを調べるために導入した。調べた結果、1字種の特徴領域と重なる特徴領域を持つ字種数が平均79であることがわかった。これは、単純なマンハッタン距離を用いた正2^N面体型特徴領域だけによるものに較べて約1/5になっているが、まだ、重なりが大きいことを意味している。
2.文字の特徴領域の重なりが類似文字に起因することに着目し、類似文字であるかどうかの判定法を考え、類似文字間の識別法としてその相違部分を重視する方法を考案した。また、低品質文字の認識のため、動的重み付き単純類似度を考え、つぶれ度による文字品質の判定により、品質に応じた識別手法を適用することで、より高精度な認識ができることを明らかにした。
3.日本語文字列の生成確率モデルとして文字trigram-単語trigramの複合モデルを考え、これを用いて誤りを含む認識結果候補文字列からより正しいもの選択する手法を開発した。
4.文書レイアウト解析については、必ずしも長方形ではない文章ブロックを抽出する方法を考案し、実験により検証した。

  • Research Products

    (2 results)

All Other

All Publications (2 results)

  • [Publications] 大町真一郎, 阿曽弘具: "品質を考慮した印刷文字認識手法" 情報処理学会論文誌. 38・12. 2490-2498 (1997)

  • [Publications] 後藤英昭, 塚田仁志, 阿曽弘具: "文書中の非方形文章ブロックの抽出のためのアルゴリズム" 電子情報通信学会論文誌(D・II). J81-DII・1. 212-214 (1998)

URL: 

Published: 1999-03-15   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi