2019 Fiscal Year Research-status Report
Improvement of layout analysis and character area recognition for extracting digital text from modern books
Project/Area Number |
18K18330
|
Research Institution | The University of Tokyo |
Principal Investigator |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | OCR / レイアウト解析 / デジタルテキスト化 / デジタルアーカイブ / 自然言語処理 |
Outline of Annual Research Achievements |
本研究は主に近代の書籍を対象としたデジタルテキスト化の精度向上を目標として、レイアウト解析および文字領域認識の精度向上を目的としている。特に近代書籍特有の原本の悪さやフォントの違い、また特有のレイアウト構造に起因する既存のOCRシステムの文字領域認識における誤認識に対し、その文字領域の周辺情報を用いて自動的に訂正することによる精度向上を目的としている。 令和元年度も引き続き誤りの傾向の分析として、既存のOCRシステムの結果に対し文字領域の誤り傾向の分析を行った。前年度と異なるレイアウト構造を持つ対象データに対して、認識された文字の中で文字単位で領域が誤認識となっている文字に対し、どのように誤っているかの分析・分類を行った。前年度の対象データと比較し、データの違いによる誤り傾向の違いの分析を行った。 またそれらの文字誤り傾向の分析結果を用いて、前年度構築したアルゴリズムおよび誤り訂正システムについて改善を行った。複数文字を一文字と誤認識している際の領域の分割や、一文字を複数文字と誤認識している際の領域の結合において使用する周辺情報および分割・結合手法について実際のデータで実験を行いながら検討を行い、システムの改善を行った。また実際に訂正を行う際に必要などの文字が誤認識であるかについて自動的に認識する際の言語情報を含めた周辺の情報を用いるアルゴリズムを実験を行いながら実際にシステムの改善を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
既存のOCRシステムの結果を用いたレイアウト解析誤り、文字領域認識誤りの分析については補助人員の作業により当初の計画通り進んでいる。しかしながら、実際の誤り訂正システムの開発および精度向上、また正解データの作成については当初の予定よりも遅れが生じている。また、当初予定していたレイアウト解析システム自体の研究開発には着手できていない。
|
Strategy for Future Research Activity |
誤り訂正システムについては正解データなどのリソースの開発を行いながら、それを元に定量的な評価を行い訂正システムのさらなる改善を行っていく。また、訂正した結果を用いて再度OCRの再認識を行うことによる精度向上の実験を行う予定である。またレイアウト解析システム自体も既存のOCRシステムによるレイアウト解析のみではなく、深層学習等を用いたシステムの研究開発も行っていく予定である。
|
Causes of Carryover |
当初の計画ではデータ作成だけではなく、プログラム開発の補助人員としてアルバイトを雇用する予定だったが、補助人員を利用した開発が行えなかったためその分の次年度使用額が生じた。また、当初は今年度行う予定であったレイアウト解析システムの開発に利用する深層学習等のための機器を購入する予定であったが、そこまで到達することができなかったため、その分の次年度使用額も生じている。 次年度使用額分については、今年度行うことができなかった、プログラム開発の補助人員の雇用、および深層学習のための機器の購入に使用する予定である。
|