• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Improvement of layout analysis and character area recognition for extracting digital text from modern books

Research Project

Project/Area Number 18K18330
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 90020:Library and information science, humanistic and social informatics-related
Research InstitutionKyoto University (2020-2021)
The University of Tokyo (2018-2019)

Principal Investigator

増田 勝也  京都大学, 学術情報メディアセンター, 研究員 (20512114)

Project Period (FY) 2018-04-01 – 2022-03-31
Project Status Discontinued (Fiscal Year 2021)
Budget Amount *help
¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2018: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
KeywordsOCR / レイアウト解析 / デジタルテキスト化 / デジタルアーカイブ / 自然言語処理
Outline of Annual Research Achievements

本研究は主に近代の書籍を対象としたデジタルテキスト化の精度向上を目標として、レイアウト解析および文字領域認識の精度向上を目的としている。特に近代書籍特有の原本の悪さやフォントの違い、また特有のレイアウト構造に起因する既存のOCRシステムの文字領域に関する誤認識に対し、その文字領域の周辺情報を用いて自動的に訂正することにより、それを用いて再度OCRを行うことによる精度向上を目的としている。
令和3年度はこれまで開発を行なってきた領域認識誤り訂正システムをベースにして、引き続き領域認識誤り訂正の訂正アルゴリズムの検討を行い、周辺の文字領域の大きさ・位置情報などを用いて自動的に行うシステムの研究開発を行った。アルゴリズムとしては、既存のOCRシステムから出力されたXML形式のOCR結果に対し、各文字領域の認識誤り判定、周辺の文字領域のサイズ情報に基づく修正後の文字領域位置・サイズの推定を順に処理を行なうアルゴリズムとなっている。用いる情報としては、文字誤りは文中の少数の文字で起こると仮定し、主に同一文中にある文字の文字領域のサイズや位置情報を用いて誤り判定、位置・サイズ情報の推定を行う。また、特に文字サイズは漢字・ひらがな・カタカナといった文字種によって違いがあるため、文字種ごとに異なる誤り判定基準、推定方法を用いて処理を行なっている。これらのアルゴリズムについて実際に実装を行い、作成済のテストデータを用いて実験を行った。

Report

(4 results)
  • 2021 Annual Research Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • 2018 Research-status Report

URL: 

Published: 2018-04-23   Modified: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi