• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

Improvement of Modern Document Textualization System with Integrated Use of Letter Shape Information and Language Model

Research Project

Project/Area Number 26730161
Research InstitutionThe University of Tokyo

Principal Investigator

増田 勝也  東京大学, 大学総合教育研究センター, 特任助教 (20512114)

Project Period (FY) 2014-04-01 – 2018-03-31
KeywordsOCR / デジタルテキスト化 / 誤り訂正 / 自然言語処理 / デジタルアーカイブ
Outline of Annual Research Achievements

本研究は、OCRシステムが出力した文字認識結果に対し後処理として自然言語処理技術を利用したOCR文字誤り訂正を行うことにより、書籍などの画像に対する高度なデジタルテキスト化システムを構築することを目的としている。システムの主な対象は近代の書籍であり、既存のOCRシステムの画像認識手法のみでは対応が困難である、現代の活字とは異なるフォントや異体字などに起因する文字置換誤りの訂正を行うことでデジタルテキスト化の精度を向上させる。
平成29年度は昨年度までに構築した複数種類の情報(言語情報・字形情報)を組み合わせたOCR誤り訂正システムに対し、各種情報を単独で用いる手法の精度の向上、および組み合わせ手法の改善による精度の向上について研究開発を行った。誤り訂正の処理の中で、OCRテキスト中での誤り箇所検出については精度の向上が見られなかったが、それ以降の文字誤りの訂正については精度の向上が見られた。また、構築した文字誤り訂正システムにより訂正された文字を用いて、その文字と対応する文字画像のペアをOCRシステムにパターンとしてフィードバックし、OCRシステム自体の精度の向上を行った。
また、これらのシステム開発に使用する言語リソースおよび実験時の正解データの作成を行った。平成29年度においては、岩波書店「思想」の約1,000ページ分の書籍画像を対象とし、そのOCR結果に対し人手で修正を行うことで近代の書籍画像に対する正解のテキストデータの作成を行った。

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi