• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

1996 Fiscal Year Annual Research Report

文書認識の完全自動化

Research Project

Project/Area Number 08458072
Research Category

Grant-in-Aid for Scientific Research (B)

Research InstitutionTohoku University

Principal Investigator

阿曽 弘具  東北大学, 工学部, 教授 (10005522)

Co-Investigator(Kenkyū-buntansha) 後藤 英昭  東北大学, 情報処理教育センター, 助手 (40271879)
大町 真一郎  東北大学, 工学部, 助手 (30250856)
Keywords文書認識 / 文字認識 / 印刷文字認識 / 領域理解 / マルチテンプレート
Research Abstract

本年度の研究では次の成果を得た。
(1)文字パターンの特徴量空間は196次元ベクトル空間である。この内部構造をマンハッタン距離により分析するために、線形計画法に基づいた方法を開発した。その結果、特徴量空間の内部構造が各文字カテゴリ単位で複雑な配置をしていることが明らかになり、具体的な判断基準を得るまでに至っていない。
空間の複雑さに対処するため、従来の距離尺度のかわりに新しく簡素化マハラノビス距離を導入した。それを用いることでより正確な認識ができることを確認している。さらに、類似文字を高精度に識別するために、マルチテンプレート化を考え、辞書の構成を改良した。この有効性を実験により明らかにした。これらをもとに、特徴量空間の内部構造の分析と正しさを保証する判断基準を求める手法を考察中である。
(2)類似文字パターン識別のための後処理として、日本語の文字系列としての統計情報を活用する手法を考案した。新聞記事を対象に文字系列の発生頻度を調べ、n-gram確率としてデータを蓄積した。考案した手法は、このn-gram確率を用いて文章としての妥当性を判定する手法を認識文字候補の中から正しいものを選択することに適用するものである。
(3)既存の認識アルゴリズムによる認識結果が正しいか否かを判定する機能として、(2)の後処理手法を組み込み、完全自動化文字認識アルゴリズム開発の第一段階を実現した。
(4)認識対象文書から文章領域を分離抽出する文書レイアウト解析のため、文章領域を構成している文字行の相互関係に注目して、ボトムアップ的に文章領域を抽出する手法を開発した。さらに、文書内の表領域が規則的な短い文字列配置をとることに注目して、罫線の有無にかかわらず表領域を抽出する手法を開発した。この手法で、図や写真が入り組んで必ずしも長方形ではない文章領域も抽出できることを明らかにした。

  • Research Products

    (5 results)

All Other

All Publications (5 results)

  • [Publications] H. MORI, H. ASO, S. MAKINO: "Robust n-Gram Model of Japanese Character and its Application to Document Recognition" IEICE Trans. Information and Systems. E74D・5. 471-476 (1996)

  • [Publications] M. SUZUKI, N. KATO, H. ASO, Y. NEMOTO: "A Handprinted Character Recognition System Using Image Transformation Based on Partial Inchination Detection" IEICE Trans. Information and Systems. E79D・5. 504-509 (1996)

  • [Publications] F. Sun, S. OMACHI, H. ASO: "Precise Selection of Candidates for Handwritten Character Recognition Using Feature Regions" IEICE Trans. Information and Systems. E79D・5. 510-515 (1996)

  • [Publications] 大町真一郎,孫方,阿曽弘具: "カテゴリー間分布を考慮した文字認識用マルチテンプレート辞書の構成法" 電子情報通信学会論文誌(D-II). J79-D-II・9. 1525-1533 (1996)

  • [Publications] 大町真一郎,阿曽弘具: "つぶれを考慮した低品質印刷文字の高精度認識" 電子情報通信学会論文誌(D-II). J79D-II・9. 1534-1542 (1996)

URL: 

Published: 1999-03-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi